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序言 


李亚民教授长期从事计算机原理和体系结构的教学与研究，他出版过三本教科 
书 I 35 , 36 . 37 】，发表过大 M 的杂志与会议文章。本书是他近年来执教和科研的实践总 
结。他的《计算机组成与系统结构》教科书在2000年由清华大学出版社 岀版； 2005 
年清华大学出版社出版的 《 CPU 芯片逻辑设计技术》是基于李亚民教授在清华大学 
系列讲座的内容而整理岀版的。 

李亚民教授的这本新书和上述两本书相比，有很多新的发展和不同点。统观全 
书，它贯穿了用 Verilog HDL 来描述计算机的各种部件和用 Verilog HDL 技术来设计 
CPU 各部件。这是本书一个很重要的特点。这种描述和设计技术是要作者花费很大 
工夫自己去理解和实践的。单从这点而言，可见本书作者在著写本书时，要投入比 
著写一般“计算机原理”书籍更多的时间和心血。这个特点带给读者的好 处是： 学完 
本书后，不仅懂了计算机原理，也可以基本掌握计算机的一种重要的设计技术。 

此外，这本书的内容也增加了一些重要的环节，如 CPU 中的多核和多线程技 
术。大家知道，多核和多线程是今后计算机较长期间的发展方向，尤其是近年来高 
性能计算进入千万亿次时代以后，多核和多线程技术会有更蓬勃的发展。本书这方 
面的内容也是计算机学生应该掌握的新内容。本书还增加了浮点部件 FPU 设计、 
浮点和整数部件结合成整体的完整的流水线 CPU 设计、带有 Cache 和 TLB 的多核 
CPU 的设计、常用 I / O 接口的设计。本书中所讲授的计算机各部件，都尽量给出 
T Verilog HDL 源代码。这些 Verilog HDL 源代码都经过 Quartus II 或者 Iverilog 的验 

证。这也体现了作者写书的严谨性和所花费的精力。 

中国的计算机事业在改革开放以来，取得了飞速的发展。在高性能计算、网络 
技术、软件、计算机产业等方面都取得了举世瞩目的成就。然而，我国必须继续重 
视计算机发展的基础，这就是计算机的设计技术，尤其是计算机芯片设计技术。这 
方面的不足是和计算机教育分不开的。我国很多大学的“计算机原理”、“计算机组 
成与结构”的课程讲授和计算机设计技术基础脱离，学生学完计算机原理与组成却一 
点未掌握计算机设计技术。 ' 

本书特点是理论和实践的密切结合。希望本书的出版和推广，能加强大学计算 
机教学领域内的理论与实践的结合。很多工程领域的结构都好像是个金字塔，只有 
基础更广泛和更结实了，金字塔的塔尖才可以构建得更高。我们寄希望于广大的大 
学生和研究生！只有更多的年轻人掌握了计算机和 CPU 的设计技术，我国的计算机 
和 CPU 设计技术才会攀登新的高峰！ 

李三立 

中国工程院院士清华大学教授 

2011年5月1日 



欢迎阅读本书。首先郑重 声明： 本书所载的 VerilogHDL 源代码可以随便使用、 
随便更改。但本书作者对任何大学、研究所、公司或者个人由于使用本书所载的 
Verilog HDL 源代码设计 CPU 或者任何其他电路所造成的任何损失不承担任何责任。 

也许有读者 会问： “现在出版的计算机原理、计算机组成与结构的教科书已经很 
多了，你为什么还要写这本书？”诚如本书书名《计算机原理与设计—— Verilog HDL 
版》所提示的那样，本书不光讲计算机原理，也讲计算机设计，而且是用 Verilog 
HDL 讲计算机设计。如果只看教科书讲的原理而不自己动手设计，就如同有人向你 
描述有一种水果是什么什么味道，听了半天也只能感觉和想象。还不如花一分钟亲 
口尝一尝 ：噢， 原来是这个味道，这就是传说中的梨子吗？ 

汁读者知道如何自己动手用 Verilog HDL 设计 CPU 及 I / O 接口和总线是作者要 
写本书的原因之一。本书的一个特点是所有 CPU 和 I / O 接口及总线的 Verilog HDL 
源代码全部由作者本人写出并经过 CAD / CAE 软件验证。作者在2000年由清华大 
学出版社出版过一本《计算机组成与系统结构》的教科书【 36 ]，得到广大读者和网友 
的好评及推荐，有些大学也选其作为课程教材或参考书使用。与那本书不同，这本 
《计算机原理与设计—— VerilogHDL 版》给出具体的 CPU 、 I / O 接口和总线设计的 
Verilog HDL 源代码并附有仿真波形，以使读者能加深理解和供读者在设计自己的电 
路时参考，同时也增加了多线程和多核技术等内容。另一个原因是现在用硬件描述 
语言来设计电路变得很流行，巳成主流，用逻辑图的方法直接设计电路的人越来越 
少了。但大部分介绍硬件描述语言的书都只停留在简单的数字电路的设计上，因此 
作者想把它引入到计算机原理的教科书中。 

也许有读者还 会问： “那你为什么选用 VerilogHDL , 而不是其他的硬件描述语 
言呢?”回答这个问题其实有些难。目前比较流行的硬件描述语言主要有 VerilogHDL 
和 VHDL 两种。大家都说 Verilog HDL 像 C 语言，而 VHDL 像 C ++ (实际上像 Ada 

语言)。由于作者对 C 比对 C ++ 更熟悉一些，所以开始自学硬件描述语言时就自然 
而然选了 VerilogHDL 。 据作者后来有限的调查得知，一些大公司也都使用 Verilog 
HDL 。 调査的对象仅限作者指导过的本科生和研究生，他们毕业之后有些人目前在 
著名的大公司从事集成电路的设计工作。看来作者当初的选择是对的。作者不是说 
选择 VHDL 就不对，其实用熟练了都一样，都是很好的设计硬件的语言工具。 

考虑到初学者的需要，本书从最基本的二进制数的运算和逻辑电路的设计讲 
起，顺便介绍 Verilog HDL 。 因此学习本书时不需要任何先修科目，不懂 C 语言也没 

有关系。“那是不是这本书的内容太过简单了呢?”不是。本书要讲到如何设计一个 
带有整数部件 (Integer Unit , IU )、 浮点部件 (Floating Point Unit ， FPU )、 指令 Cache 
( 一种特殊的小容量的快速存储器)、数据 Cache 、 指令 TLB (Translation Lookaside 
Buffer , —种用于地址转换的快速缓冲区）和数据 TLB 的多核 CPU 。 其中的 Cache 完 
全由硬件 控制； TLB 不命中时产生异常，在异常处理程序中访问用于存储器管理的 
页表 （Page Table ), 然后填充 TLB ; FPU 能对 IEEE 754单精度浮点数进行加、减、 



乘、除和开方 运算： 加减法用先行进位加减法器实现、乘法用 Wallace Tree 实现、除 
法和开方用 Newton - Raphson 算法实现。这些都是实际的 CPU 设计中常用的部件和算 
法。一般的教科书都是分开讲它们的原理。本书也讲原理，但更重要的是把它们有 
机地结合在一起，设计出一个完整的 CPU 。 当然 ， Verilog HDL 源代码和仿真波形也 

在书中给出。 

稍微讲具体一些。本书的内容 包括： 计算机基础知识及性能 评价； 逻辑电路 
及 Verilog HDL 简介； 计算机算法及 Verilog HDL 实现； 指令系统及 ALU (Arithmetic 
Logic Unit ) 设计； 单周期、多周期和流水线 CPU Verilog HDL 设计； 精确中断和异 
常处理及电路 实现； 浮点算法及 FPU Verilog HDL 设计； 带有 FPU 的流水线 CPU 
Verilog HDL 设计； 多线程 CPU Verilog HDL 设计；存储器和虚拟存储器 管理； 带有 
Cache 、 TLB 及 FPU 的 CPU 设计； 多核 CPU Verilog HDL 设计； 输入 / 输出接口和总 
线 设计； 高性能计算机及互联网络设计。更详细的内容就只有看目录了。 

除了 Newton - Raphson 算法，本书也介绍 Goldschmidt 除法和开方算法。这两种 
算法都被著名的公司（比如 Intel 和 IBM ) 在设计 CPU 时使用。输入/输出接口部分除 
了介绍基本的概念和原理之外，还给出了常用 I / O 接口及总线的具体的设计方法， 
比如异步通信接口 UART 、 PS /2 鼠标和键盘接口、 VGA 接口、 I 2 C 串行总线和 PCI 
并行总线等。除了 PS /2 鼠标，其他的接口和总线都给出了具体的 Verilog HDL 设计 
实例。 PS /2 鼠标讲了原理，设计部分当做习题留给了读者。高性能计算机及互联网 
络设计部分除了讲述一般的设计方法之外，也描述了由作者提出的新型互联网络， 

包括 Dual - Cube [ 15 】、 Metacube 【 20 】 和 RDN (Recursive Dual - Net )【 19 】。 这些互联网络具有 
用较少的端口连接更多的 CPU 和存储器板并且保证它们之间的通信距离比较短的优 
点，非常适合用来构建下一代超大规模的超高性能计算机。 

“好像内容太多了，一个学期学不完^ ”以上内容可分成两部分，一部分放在本 
科讲，另一部分给研究生讲。举例来讲， TLB 设计、 FPU 设计、多线程和多核 CPU 
设计、高性能计算机及互联网络设计等内容可在研究生课程中讲授，其余部分在本 
科课程中教授。如果在本科阶段能设计出流水线 CPU 就已经很好了，课时充裕的 
话再加上中断和 Cache 设计。存储器管理要讲，但不一定要设计 TLB 。 以上只是举 
例，大家可以根据学校的具体情况做出不同的安排。 

“那么需要什么样的环境呢?”如果只想验证用 Verilog HDL 设计的电路的逻辑 
功能是否正确，只要有一台普通的 PC 就行，所需的软件可以从网上下载，免费的， 
而且也不用注册，安装后马 h 就能用，而且相当好用。比如作者使用的 Icarus Verilog 
( Iverilog ) 和 Altera 公司的 Quartus II Web Edition 就是这样的软件。如果想要用 FPGA 

实现，买些 FPGA 实验板，即可实现诸如“计算机原理与设计实验”等课程所要求 
的内容。 Altera 公司也与国内很多高校合作建立了硬件实验室，免费提供 FPGA 实验 
板。其实买也不贵。如果使用 XilinxFPGA 板，则部分代码需要修改。 

“如果想自学，读这本书合适吗？”自学很重要，不管是出于工作需要还是个 
人兴趣。对已经参加工作的技术人员或在校的非计算机专业的学生来讲，如果想自 
学，可以慢慢读、慢慢做，因为咱没有期末考试。本书的写作风格就是试图把复杂 
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的概念通俗易懂地讲出来，让人容易理解，所以本书非常适合自学者阅读。 

“如果只想学原理不想学设计，读这本书合适吗？”对每个基本概念，本书都是 
先讲它的原理，再讲设计。如果只想学原理，只要不看设计部分就行了。不过还是 
都学为好，因为设计的过程也是学习的过程。如果读者已经懂了原理，直接看设计 
部分就行了，这样效率会更高。 

“每章最后的习题有没有标准答案？”没有。有些题目尤其是设计类型的题目的 
做法有很多种，只要到了罗马（到了北京也行)，都得100分，都是标准答案。有新意 
的，加10分。有些题目附加了提示，仅供读者参考。作者鼓励大家发挥自己的创造 
性，找一些书上没有的题目来做。 

作者欣喜地看到，计算机的硬件实验教学终于开始受到重视，从2009年开始在 
南京大学召开的全国计算机组成与结构课程群实验教学研讨会就是一个证明。作者 
有幸受邀和参加会议的各位老师进行了交流。大家一致认为，计算机偏硬件类课程 
在整个计算机学科的教学中居于非常重要的位置，应该从现在起加强对这方面的投 
人，包括教师队伍的建设、教材的更新以及实验环境的准备等。本书的出版，也算 
是响应这个会议的号召吧。 

希望读者在学完本书之后，在对计算机原理与设计和 Verilog HDL 的理解和使用 
上，比没有阅读之前有一定程度的提高。从个人的角度讲，熟练地掌握了 CPU 设计 
技术，至少会增加一种就业机会，而且一不小心就成了专家。从大局着眼，相信读 
者会为我国的 CPU 设计水平的提高做出自己的贡献。另外，本教科书的这种写法是 
一 种新的尝试，因此作者也期待有更多的与本书风格类似的教科书出现，大家一起 
来繁荣我国的计算机基础教育事业一也就是清华大学教授李三立院士在“序言”中 
提到的——把金字塔的基础打牢。 

本书得以岀版，作者感谢李三立教授。李教授为本书的写作和出版提供了很好 
的建议和帮助。另外，大约从十年前开始，李教授就为作者联系了很多高校，在暑 
假期间开设 CPU 设计系列讲座，比如清华大学、东南大学和浙江大学等。作者也感 
谢清华大学出版社对本书的支持。 

本书中所有的 Verilog HDL 源代码均经过 Quartus II Web Edition 或者 Iverilog 的 
验证， C 语言程序由 gcc 编译。本书初稿在 Linux / CentOS 环境下 完成： 中文输入用 
emacs + chinput ,除了从屏幕截取的仿真波形图，其他所有的图几乎都是用 tgif 或 
gnuplot 画成， PDF 文件用 VTeX / Linux + CJK 生成。以 i ： 均为免费软件，作者一并 
向这些软件开发者和相关公司表示感谢。 

由于作者水平有限，本书所载的 Verilog HDL 源代码写得不太漂亮，而且只是 
一家之言。希望读者能写出质量更高的代码并对本书的错误之处加以指正。来信请 

寄： yamin @ ieee.org 或者 yamin @ computer . org 。 


李亚民 
2011 年5月5 H 
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第 1 章计算机基础知识及性能评价 


欢迎阅读这本《计算机原理与设计一 VerilogHDL 版》教科书。本书将从最基 
本的逻辑电路及其 Verilog HDL 设计讲起，由浅人深，逐步讲到如何用 Verilog HDL 
设计一个带有分开的指令及数据 TLB / Cache 和能执行浮点加、减、乘、除及开方指 
令的浮点部件 FPU 的多核 CPU 。 本书也给出常用的输入/输出接口的设计方法，包 
括异步通信接口 UART 、 PS /2 键盘与鼠标接口、视频图像阵列 VGA 接口、 I 2 C 和 
PCI 总线接口。以上 CPU 和 I / O 接口基本上都有 Verilog HDL 源代码，供读者在设计 
自己的电路时参考。另外，我们也将描述高性能计算机及其互联网络的设计方法。 

本章主要讲解一些基本的概念，对计算机原理与设计和计算机性能评价做一个 
简单的介绍，以便为学习以后各章打下一点基础并留下一个整体印象。 

1.1 计算机系统概述 

假设你有一台 PC , 存储器有 16 GB ， CPU 主频为 3 GHz 。 问： 上述的两个 G 是 
否相同？本节最后将给出这个问题的答案。在此之前，我们简要介绍计算机和计算 
机系统各自包含的内容、计算机发展简史、计算机的指令结构以及 RISC 和 CISC 的 
基本概念与不同之处。 

111计算机系统的组成 

读者可能知道什么是单片机，或者至少听说过（没听说过也没关系)。单片机 
的全称是单片计算机 （Single Chip Computer )， 它就是一个芯片，内部集成有 CPU 
(Central Processing Unit )、 存储器 ( Memory ) 和一些常用的 I / O 接口 ( Input/Output Inter - 

face ) 0 由此可见，包含了以上三种部件的芯片或电路板就叫计算机。 

那么， 一 般的用户能不能直接使用这个计算机呢？答案是不能。我们常说的计 
算机实际上是指计算机系统 (Computer Systems )。 计算机系统中除了包含有计算机 
( CPU 、存储器和 I / O 接口）之外，还有计算机软件 ( Software ) 和 I / O 设备 ( Input/Output 
Devices )。 当然还少不了电源。 

最基本的软件是操作系统 (Operating System ) 0 它负责管理计算机系统的所有硬 
件资源，为用户使用计算机系统提供一个界面。最基本的也是最常用的操作系统有 
MS - DOS 和 Linux 核 （ Kernel )。 微软的各种版本的 Windows 或诸如 Fedora 和 CentOS 

等可被认为是在基本的操作系统基础上开发的高级图形界面。 

软件是用计算机语言（高级语言或汇编语言）编写的程序再经过编译或汇编 
后生成的可执行的二进制代码。编译器 ( Compiler ) 和汇编器 ( Assembler ) 本身也是 
软件，有时也称为软件工具。其他的软件工具还有编辑器 （ Editor ) 和软件调试器 
( Debugger ) o 计算机系统还配有常用的实用程序库 ( Utilities )。 除此之外的其他软件可 
以统称为应用程序 （ Applications )。 提问： 第一个汇编器是用汇编语言编写的吗？ 
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软件的开发过程大致如下。首先选用一种（或几种）高级语言（或汇编语言)，用 
一个编辑器来编写源程序。编好后存入硬盘。再用编译器或汇编器把它转换成0标 
码 （ CPU 可执行的二进制的机器码)。生成好的机器码程序仍存放在硬盘上。然后通 
过操作系统执行它，看看软件能否正常工作。第一次执行一般都通不过。这时可用 
调试器来跟踪程序的执行，找出错误所在。一个成熟的软件要经过成百上千次调试 
才能趋于完善（注意是“趋于”）。 

I / O 设备（或称外部设备）就像一辆车的轮子和方向盘。大家知道，常用的 I / O 设 
备有键盘、鼠标、显示器、硬盘、打印机。网络接口也可归于此类。不太常用的 I/O 
设备有扫描仪和磁带机。由早期不太常用变为常用或越来越常用的 I / O 设备有视频摄 
像头、扬声器、话筒、 CD / DVD 驱动器和优盘 (USB Memory )。 实际上，高档手机就 
是一个微型的计算机系统。 

综合以上的描述，我们给出图 1.1 所示的计算机系统的组成结构 o 有关 CPU 内 
部的 ALU 、 FPU 、 Cache 、 TLB 、 寄存器堆和控制部件等内容，将在以后各章详细描 
述并给出电路设计的 Verilog HDL 源代码。 


CPU (处理机) 


ALU、FPU 
寄存器堆、控制部件 


/计算机 

软件 

计算机系统< 

I / O 设备 
k 电源 


存储器 

I/O 接口 


Cache、TLB 


操作系统、编译器、汇编器、链接器 
实用程序库 
应用程序 


键盘、鼠标、显示器、硬盘、打印机、网络接口 
磁带机、扫描仪 

视频摄像头、扬声器、 话筒/ 优盘、 CD / DVD 驱动器 





阅 1.1 计算机系统组成 


好像可以把计箅机和 I / O 设备统称为硬件 ( Hardware ) o 这样就可以讲一个计算机 
系统由硬件和软件组成（电源不提也罢)。从这个意义上讲，一个大学有了计算机学院 
再成立一个软件学院也是有道理的。不过两个学院要紧密协作，因为计算机系统的 
设计要讲究 Hardware/Software Co - Design 。 外设学院好像还没听说过。 

1.1.2 计算机发展简史 


计算机经历了机械时代和机电时代，于20世纪40年代进人电子时代(第一代)， 
其标志是40年代中期使用电子管的计算机 ENIAC 的诞生。第一代计算机没有编程 
工具，程序员必须通过控制面板 h 的开关来向计算机输入指令。 
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20世纪50年代后期，计算机进人第二代。其主要标志是使用分立的晶体管和磁 
芯存储器，典型的计算机是 IBM 7000系列和 CDC 6000系列。操作系统和高级语言 
在这期间诞生。晶体管的发明也是一件具有里程碑意义的事情。 

20世纪60年代中期，计算机进入第三代。其主要标志是使用了集成电路 
(Integrated Circuit ), 即把许多晶体管集成在一个芯片内。有名的生产集成电路的 
公司有仙童 ( Fairchild ) 和德州仪器 (Texas Instruments ) 0 典型的计算机是 CDC 的 
6600和 IBM 360 (后来变成了 370 )。 IBM 在360上首次把计算机体系结构 (Computer 
Architecture ) 和计算机组成 (Computer Organization ) 分开，不同的型号具有相同的体 
系结构，售价从几十万到上百万美元不等。 

给个具体的价格以加深印象，感觉一下你现在有多 幸福 ： IBM System /360 Model 
75 的时钟频率是 5.1 MHz ， 存储器为 256 KB 〜 1 MB , 售价是当时的 190 万美元，而 
性能远不及现在普通的 PC (Personal Computers )。 如果你有本事带 一 台 PC 以超过光 
速的速度通过时间隧道回到20世纪60年代去卖，你就变成富人了。从另一个角度 
看，说不定现在也有一百年以后的人在向我们兜售计算机呢。大家想想，那一百年 
以后的计算机会是什么样的呢？ 

20世纪70年代末期，计算机进人第四代。其主要标志是使用了超大规模集成 
(Very Large Scale Integration , VLSI ) 电路和半导体存储器。典型的计算机是使用微处 
理机的低端个人计算机和高端的 IBM 390系列。 IBM PC 使用了 Intel 的8086微处理 
机，从此 Intel x 86 指令结构开始流行。 

虽然还是 IBM 公司，但这次是为他人做了嫁衣 。 IBM PC 使用了 Intel 的8086 
CPU 和微软的操作系统 MS - DOS , 而且随机赠送电路图。这样就成全了 Intel 和微软 
以及其他生产 PC 的公司。 IBM 好像没得到什么好处，也许它认为 PC 只是一个小玩 
具，要把精力放在做大做强上。如果 IBM 当初使用自己的 CPU 和操作系统做 PC , 
也公开电路图，那么今天就会有另外一种景象。当时与 Intel 8086同样有名的微处理 
机还有 Zilog 的 Z 80 和 Motorolar 的6800,不过它们没有8086的运气好。从现在高性 
能 CPU 设计的角度看， x 86 指令系统不是很好甚至很不好。不好的原因稍后讲。 

第五代计算机从什么时候开始、以什么为标志，以及现在是第几代等，众说纷 
纭。作者也不在这里多说了。总之，现在的计算机，不管是高档 PC 还是超级计算 
机，都使用多核多线程的 CPU 。 还是那句话，以后的计算机又会是什么样的呢？希 
望寄托在读者身上。 

这里有必要简单地提一下摩尔定律 （ Moore’s Law )。 摩尔是 Intel 公司的创始人之 
一， 他在1965年提出了半导体芯片上所能集成的晶体管的数量每两年翻倍的预测。 
经修正后变为每18个月翻一番。后来的实际情况证实了这个预测是正确的。不仅是 
晶体管数 M , 超级计算机的性能也大致是每18个月翻一番，而且每隔18个月相同 
的钱所能买到的性能也翻一番。 

如果你现在想买一台 PC , 你可能会想，明年买会更便宜，或相同的钱能买到性 
能更好的。有这样的想法很自然，但如此，你一辈子也买不上 PC ， 这是因为明年还 
有明年。最佳答案是今天就买、回家就用。 



4 


第 1 章计算机基础知识及性能评价 


1.1.3 计算机指令结构 

软件的执行是 CPU 的工作。 CPU 能执行的实际上是它能理解的指令 （Instruo 
tion ) 0 不同的 CPU 有不同的指令系统，它们的格式以及用二进制位的表 不也 是不同 
的。 一 般地， 一 条指令都有一个指令操作码(指定该指令要完成什么样的操作)，其余 
部分可以是立即数 （ Immediate )、 寄存器号、存储器地址或者它们的组合，即给出如 
何得到操作数以及把指令的操作结果存到什么地方等信息。 

立即数是直接参加运算的数据，在指令中给岀。立即数的二进制位数从8到32 
位不等。 CPU 中有若干个寄存器，它们能够保存数据，并且速度非常快。寄存器的 
数量依 CPU 不同而有所差别，一般从8到256个不等。立即数是常数（一旦定了就 
不能改了)，而寄存器操作数是变 M 。 存储器的地址一般是32位，有些 CPU 直接在 
指令中给出，有些是通过寄存器的内容与立即数相加得到。存储器数据也是变世， 
但把常数放在存储器中也未尝不可。 

指令的种类大 致有： （1) 整数算术运算和逻辑 运算； （2) 寄存器与存储器之间的 
数据 传送； （3) 条件转移和无条件 跳转； （4) 子程序调用和 返回； （5) 浮点 运算； (6) I/O 
访问； （7) 系统维护，比如系统调用和从中断返回等指令。 

我们通过 x 86 和 MIPS 指令系统的具体的例子加以说明。下面是用 C 语言编写 
的一个乘法子程序，实现两个16位无符号数相乘，结果为32位的无符号数。 

unsigned int mull 6 (unsigned int x, unsigned int y) { 

unsigned int a, b, c; 

unsigned int i; // counter 

a = x; // multiplicand 
b = y; // multiplier 
c = 0; // product 

for (i = 0; i < 16; i++) { // for 16 bits 
if ((b & 1) == 1) { // LSB of b is 1 

c += a; // c = c + a 

} 

a = a << 1; // shift a 1-bit left 

b = b >> 1; // shift b 1-bit right 

} 

return(c); // return product 

} • 

当然，你可以直接用 c = a * b 实现相乘，但我们这里演示的是如何用加法和 
移位操作实现相乘。如果我们的计算机系统中的 CPU 具有 x 86 指令结构，经过 gcc 
一 04 — S 的编译 (GNU C 编译器，优化级别 4) 后，生成如下的 x 86 汇编语言程序。 


mull6 : 


push! %ebp 

movl %esp, %ebp 

movl 8(%ebp), %ecx 
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pushl %ebx 

movl 12 (%ebp ), %edx 

xorl %ebx/ %ebx 

movl $15, %eax 

.p2align 2 , ,3 

• L6: 

testb $1, %dl 

je . L5 

addl %ecx/ %ebx 

• L5: 

sail %ecx 

shrl %edx 

decl %eax 

jns .L6 

movl %ebx, %eax 

popl %ebx 

leave 

ret 

我们并不解释所有的指令，只把一条 addl % ec X ，％ eb X 指令拿出来晒晒。这条指 
令实现 C 语言程序中的 c += a ， 其中 addl 指出是加法指令， ％ecx 和 ％ebx 是两个 
32位源操作数寄存器， ％ebx 也是目的寄存器。该指令把％6(^和％^^寄存器中的 
两个32位数据相加，把结果存人 %ebx 寄存器。由此我们看出， x 86 的指令具有双 
操作数的结构。如果把相同的 C 语言程序用 gcc — 04 — S 命令编译成 MIPS 汇编程 
序，我们将得到以下的代码。 

mull 6: 

•frame $sp, 0, $31 # vars= 0, regs= 0/0, args= 0, gp= 0 

.mask 0x00000000, 0 

.fmask 0x00000000, 0 

.set noreorder 

.set nomacro 

move $6, $0 

li $3, 15 # Oxf 

$L6: 

參 

andi $2, $5 f 0x1 

addiu $3, $3, -1 

beq $2, $0 f $L5 

srl $5, $5, 1 

addu $6, $6, $4 

$L5: 

bgez $ 3 , $L6 

sll $4, $4, 1 

$31 

$ 2 f $6 


move 
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实现 C 语言程序中 c += a 语句的指令是 addu $6, $6, $4。该指令的一般格式是 
addu rd , rs , rt , 其中 rd 是目的寄存器， rs 和 rt 是两个源操作数寄存器。由此可以看 
岀， MIPS 的指令具有三操作数的结构。几乎所有的 RISC 类型的 CPU 都具有三操作 
数的指令结构。注意以上代码中指令的 次序： 处在转移或跳转指令 beq 、 bgez 和 j 下 
面的指令 srl 、 sll 和 move 在转移或跳转发生之前执行。这是为了提高流水线效率的 
所谓的延迟转移 (Delayed Branch )。 汇编程序中 Ox 是十六进制的意思。 

还有一操作数的指令格式。在这种 CPU 中，有一个称为累加器 ( Accumulator ) 的 
寄存器，它总是参加运算并保存结果，是第一把手且不用参加选举而永远当选的， 
因此只要在指令中指定另外一个操作数就够了。6502和 Z 80 CPU 就属于此类。 

有没有零操作数的指令格式呢？有。在这种 CPU 中，有一个称为堆栈 （ Stack ) 
的快速存储器。堆栈有所谓栈顶，栈顶的位置由栈顶指针指出。一条运算指令只要 
指明做何种运算就行，不用指定任何操作数。运算时，从栈顶弹出两个数据，运算 
的结果再压入栈顶。栈顶指针根据运算指令自动调整。 Java 虚拟机 JVM (Java Virtual 
Machine ) 的指令系统 Bytecode 就属于此类。 

表 1.1 以 add 指令为例总结了上述四种指令的汇编格式，其中的 X ， y, z 既可以 
是存储器地址也可以是寄存器编号。 


表 1.1 以操作数个数对指令进行分类 


面向通用寄存器或存储器 

面向累加器 

面向堆栈 

三操作数指令 

二操作数指令 

一操作数指令 

零操作数指令 

add x , y , z 

add x，y 

add x 

add 


所有的指令均用二进制表示。在 x 86 中，32位的通用寄存器只有8个(不是严格 
意义上的通用)，它们分别是 eax , ebx , ecx , edx , ebp , esp , esi 和 edi 。 因此寄存器 
的编码只需要 3 位 ( log 2 8 = 3或2 3 = 8)，而且常用的指令尽量使用较短的操作码。 
以下是上述 x 86 汇编程序中每条指令的二进制表示。我们可以看出， x 86 指令的长度 
(二进制位数)不是固定的，有些指令只用8位表示，但有些指令需要几十位。如果不 
对当前指令译码，就不会知道下一条指令的起始地址。这将给 CPU 的设计，尤其是 
流水线 CPU 的设计带来不小的麻烦。 


mull 6: 


pushl 

%ebp 

movl 

%esp, %ebp 

movl 

8 (%ebp), %ecx 

pushl 

%ebx 

movl 

12 (%ebp), %edx 

xorl 

%ebx f %ebx 

movl 

$15, %eax 

.p2align 

i 2 f f 3 


01010101 

1000100111100101 

100010000100110100001000 

01010011 

100010110101010100001100 

0011000111011011 

10111000 

00001111000000000000000000000000 

100011010111011000000000 


• L6: 
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testb $1/ %dl 
je . L5 

addl %ecx f %ebx 

.L5 : 

sail %ecx 

shrl %edx 

decl %eax 

jns .L6 

movl %ebx f %eax 

popl %ebx 

leave 
ret 


111101101100001000000001 

0111010000000010 

0000000111001011 

1101000111100001 

1101000111101010 

01001000 

0111100111110010 

1000100111011000 

01011011 

11001001 

11000011 


以下是 MIPS 汇编程序中每条指令的二进制表示。 MIPS 有32个寄存器，寄存 
器号在指令中用5位表示。我们可以看出， MIPS 指令的长度是固定的，每条指令都 
是32位。 MIPS 的指令格式非常规整，这有利于流水线 CPU 的设计。我们可以讲， 
设计一个流水线的 MIPS CPU 要比设计一个流水线的 x 86 CPU 简单得多。这也正是 
本书选择 MIPS 指令来讲述计算机原理与设计的原因之一。 1 


$L6: 


$L5: 


move 

$6, 

$0 


# 

00000000000000000011000000100001 

li 

$3, 

15 


# 

00100100000000110000000000001111 

andi 

$2, 

$5, 

0x1 

# 

00110000101000100000000000000001 

addiu 

$3, 

$3, 

-1 

# 

00100100011000111111111111111111 

beq 

$2, 

$0, 

$L5 

# 

00010000010000000000000000000010 

srl 

$5, 

$5, 

1 

# 

00000000000001010010100001000010 

addu 

$6, 

$6, 

$4 

# 

00000000110001000011000000100001 

bgez 

$3, 

$L6 


# 

曹 

00000100011000011111111111111010 

sll 


$4, 

1 

# 

00000000000001000010000001000000 

• 

] 

$31 



# 

00000011111000000000000000001000 

move 

$2, 

$6 


# 

00000000110000000001000000100001 


虽然 MIPS 指令比有些 x 86 指令需要更多的二进制位来表示，但每条 MIPS 指令 
的功能非常简单。我们称 MIPS 属于 RISC 类型，而 x 86 属于 CISC 类型。 


1.1.4 CISC 和 RISC 


CISC (Complex Instruction Set Computer ) 是对那些具有复杂指令系统的 CPU 的总 

称。指令系统复杂包含两层意思。 一 是指一条指令能完成复杂的操作，例如从存储 
器取来数据、计算、再把结果存入存储器 u 另外一层意思是指令的格式不规范，操 
作码及整个指令的长度不统一。 CISC 的例子有 Intel x 86 ( IA -32 和 IA -64 )、Motorola 
MC 68000、 PDP -11 和 VAX ， 后两个到 1980 年代已不再生产。 

CISC 指令系统试图提供与某些高级语言的语句相对应的指令，使一条指令能 
完成尽可能多的操作。比如一条指令可以实现计数器减1,如果计数值不为0则跳 
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转。再比如为了提高对数组元素计算的效率， 一 条指令可以实现多个 操作： 使用一 
个寄存器与立即数相加得到存储器地址，再去访问存储器，把取来的数据与另外一 
个寄存器的内容相加，并且修改第一个寄存器的内容（如果是字节操作，则加1或减 
1;如果是半字操作，加2或减2;如果是字操作，加4或减 4), 指向下一个数组元 
素。 CISC 指令系统往往提供丰富的寻址方式 (Addressing Modes ) 0 

当时的存储器的容量很小而且价格昂贵，所以指令系统的设计者想方设法要使 
编译或汇编过后的程序变短，以使相同容量的存储器能存放更多的指令。这就导致 
了每条指令长短 不一： 常用的指令较短，不常用的指令较长。 

由于 CISC 的指令过于复杂，设计 CPU 时往往采用微程序 ( Microprogram ) 的方 
法来实现这些指令。 一 条指令被分成若干条微指令 （Microcode 或 Microinstruction ) , 

使用微程序计数器来读出微指令。这样，一个周期就只能执行一条指令的若干分之 
一。 依指令复杂程度的不同，实现一条指令的微指令的数量也不同。微程序的方法 
非常不适合流水线操作。在流水线 CPU 中， 一 个周期同时执行多条指令，每条指令 
处在不同的执行阶段。因此微程序方法只被用在非流水线 CPU 的设计中。 CISC 在当 
时的优点是代码紧凑，使用较少的存储器。缺点是实现复杂的指令需要较多的芯片 
面积而且不利于流水线操作。 

是不是 CISC 所有的指令都是复杂的指令呢？也不是，简单的指令也不少。一般 
地讲，实现 CISC 简单指令所需的电路占总体的20%,而其余的80%用来实现 CISC 
复杂指令。那么编译器能否有效地使用这些复杂的指令呢？答案是不能。原因是指 
令太复杂了，不知怎么用。也是一般地讲，经过编译后的程序80%都是简单的指 
令，20%才是复杂的指令。这就是所谓的 82-28 现象。我们可以看出，在 1.1.3 小节 
的 x 86 汇编程序的例子中，几乎所有的指令都是简单的指令。 

RISC (Reduced Instruction Set Computer ) 是对那些具有简单指令系统的 CPU 的总 
称。该名称是 UC Berkeley 的 David Patterson 首先提出的。而 CISC 是有了 RISC 的 
名称后派生出来的名称，人家当初并没有称自己的 CPU 是 CISC 。 在20世纪80年 
代初， Patterson 领导的课题组对当时的 CPU 的指令系统做了研究，提出了 RISC 概 
念，并试做了 RISC-I 和 RISC-II CPU。Sun Microsystems 的 SPARC CPU 的指令系统 
就是在 RISC - I/II 的基础上设计的。与此同时， Stanford 的 John Hennessy 也做着类似 
的研究，提出 丫 MIPS (Microprocessor without Interlocked Pipeline Stages ) 指令系统并 
一 度离开 Stanford 创建了 MIPS 公司。后来两个人合写了两本著名的教科书队 27】 。实 
际上，早在1975年， IBM 的 John Cocke 领导的小组就开始了对基于简单指令系统的 
微处理机体系结构的研究，其项目名称是 IBM 801。因此有人，尤其是 IBM 的人， 
称 John Cocke 为“ RISC 之父”。 

RISC 指令系统的特点有两个。 一 是指令长度固 ’定； 二是所谓的 Load/Store 结 
构。 Load/Store 结构是指一条 Load 指令把存储器的数据取到 CPU 的寄存器中，一条 
Store 指令把寄存器的数据存到存储器中。这两条指令都不对数据本身做任何运算， 
相当于有诚信的快递公司为客户运送物品。而运算指令的操作数都在寄存器中。指 
令长度固定有利于流水线 CPU 的设计。自从 RISC 问世之后，微程序就很少被使用 
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了。20世纪80年代后半段 RISC CPU 陆续登场，有 MIPSR 2000/ R 3000 、HP PA-RISC 
和 Sun Microsystems SPARC 。 20世纪90年代64位 RISC CPU 登场，有 IBM/Motorola 
PowerPC、MIPS R 4000/ R 8000 、Sun Microsystems SuperSPACR/UltraSPARC II 、 DEC 

Alpha 和 HP PA - RISC 7200 等。 

那么，是否 RISC 已经取代了 CISC 呢？没有。主要原因是市场。 CISC , 尤其是 
x 86, 有大 M 的软件资产可以继承，而 RISC 没有。想象一下将 x 86 指令系统彻底抛 
弃会带来什么后果。实际上，进入21世纪后生产的 CPU ， 比如 UltraSPARC III、 IBM 
POWER 4/ POWER 5/ POWER 6 、 Intel Pentium 4/ Xeon / Itanium/Core 2 /Core i 3/ i 5/ i 7/ i 9 和 
AMD Athlon / Opteron , 都有一个趋势，就是 RISC 越来越 CISC 、 CISC 越来越 RISC 
了。意思是 RISC CPU 加了大量的复杂的指令，而 CISC CPU 并不直接执行 CISC 指 
令，而是转换成 RISC 指令再执行，比如把 x 86 指令转换成 / xop 。 

有意思的是由6502 ( CISC ) 派生出来的 ARM 具有复杂的指令结构，但人们喜欢 
把它归类到 RISC 。 ARM 在嵌入式市场有压倒性的占有率。有关早期的 RISC CPU 的 
详细描述，请参阅 《 RISC ——单发射与多发射体系结构》 

1.1.5 一些基本单位的意义 

% 

现在回答本节开始处提出的问题。答案是两个 G 不 一样： 3 GHz ( CPU 主频）中 
的 G = 10 9 = 1 000000000,而 16 GB (存储器容量）中的 G = 2 30 = 1 073 741 824, 

比10 9 大一些。当表示时钟频率或时钟周期时，用10的多少 次方； 当表示存储器的 
容量时，用2的多少次方。表 1.2 列出了一些基本单位的意义。 


表 1.2 —些基本单位的意义 


存储器容量 

时钟频率 

周期长度 

K 

kilo 

2 io 

1024 

K 

kilo 

10 3 

m 

milli 

10— 3 

M 

mega 

2 20 

1 048 576 

M 

mega 

10 6 


micro 

10_ 

-6 


giga 

2 30 

1 073 741 824 

G 

giga 

10 9 

n 

nano 

10_ 

-9 

T 

tera 

240 

1099 511 627 776 

T 

tera 

10 12 

P 

pico 

io- 

•12 

P 

peta 

250 

1 125 899906 842 624 

P 

peta 

10 15 

f 

femto 

io- 

■15 

E 

exa 

260 

1 152 921 504 606 846976 

E 

exa 

10 18 

a 

atto 

10_ 

•18 

Z 

zetta 

2*70 

1 180 591620717411 303 424 

Z 

zetta 

10 21 

z 

zepto 

io- 

■21 

Y 

yotta 

280 

1 208 925 819 614 629 174 706 176 

Y 

yotta 

QSI 

D 

yocto 

1 (T 

■24 


当我们说到存储器的容量时，总是以字节 （ Byte , 8位）为单位。另外还有半字 
( HalfWord ), 是 16 位； 字 （ Word ), 32 位； 长字 （Long Word ) 是64位。但 x 86 定义长 

字是32位，而字为16位。这都是8086惹的祸。 16 G 字节可以写为 16 GB 。 二进制 
位的英文单词是 Bit , 它是一个由 Binary digit 造出来的词，即一个“二进制数字”的 
意思。有人把它翻译成“比特 ”， 搞得神神秘秘，专门用来蒙人。 
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1.2 计算机的基本结构 

我们已经讲过，计算机中包含有 CPU 、 存储器和 I / O 接口。本节简要介绍这三 
大件。顺便提一下， CPU 是一个比较老的名称，自从处理机 （ Processors ) ——尤其是 
微处理机 ( Microprocessors ) ——的名称问世之后，就很少有人再使用 CPU 这个名称 
了，用了连自己也觉得挺土的。好像 CPU 和处理机各领了风骚三十年。但最近 CPU 
的名称又开始时髦起来了，真是应了那 句话： 三十年河东，三十年河西。 CPU 和处 
理机好像有些微妙的差别，比如早期的 CPU 不是一个芯片，而是一块电路板，由很 
多分立元件组成 CPU ， 而处理机是一个芯片。但现在 CPU 也是指芯片，而且都集成 
有 Cache (一种小容量高速度的存储器）和 TLB (一种用于地址转换的缓冲区)。所以也 
别管那么多了，认为二者指的就是那个能执行指令的芯片就行了。 

1.2.1 RISC CPU 的基本结构 


CPU 负责执行指令。图 1.2 是简化的 RISC CPU 的结构图。 



图 1.2 简化的 RISC CPU 结构图 


指令从指令存储器取来，存储器的地址由程序计数器 PC (Program Counter ) 提 
供。小三角形处接时钟信号。寄存器堆 （Register File ) 里有一堆寄存器，存的是数 
据 。 ALU (Arithmetic Logic Unit ) 负责计算，两个数据可以全部来自寄存器堆，其中 
的一个也可以来自指令中的立即数。图中的多路器 （ Multiplexer ) 从多个输入中选择 
一个送出。计算的结果存入寄存器堆。如果是 Load 指令，则 ALU 的输出作为地址 
使用，访问数据存储器，把从数据存储器取来的数据存入寄存器堆。如果是 Store 指 
令，把寄存器的内容存人数据存储器。 Load 和 Store 指令在计算存储器地址时把一 
个寄存器的内容与立即数相加，因此寄存器堆的第二个输出可以用来把寄存器数据 
送到数据存储器。如果是条件转移指令，则要根据 ALU 输出的标志位来判断是否转 
移，转移地址由当前 PC 和带符号的立即数（或称偏移量）相加得到。不转移时 PC 要 
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加4,指向下一条指令(一条32位的指令占用4个字节)。图 1.2 中的电路实际上是单 
周期 CPU ， 即一个时钟周期执行一条指令， 一 条指令执行完再执行下一条指令。 

单周期 CPU 是在一条指令的所有操作全部完成后，才开始下一条指令的执行。 
流水线 CPU 是把一条指令的执行过程分成若干阶段，或称级 ( Stage ), 使得多条指令 
能重叠执行。图 1.3 示出的是一个简化的流水线 RISC CPU 的结构。 



IF 


ID 


EXE 


MEM 


WB 


图 1.3 简化的流水线 RISC CPU 结构图 

图中的流水线有 5 级，它们分 别是： （1) 取指令 IF (Instruction Fetch ) 级； （2) 指 
令译码 ID (Instruction Decode ) 级； （3) 执行 EXE ( Execution ) 级； （4) 存储器访问 MEM 
(Memory Access ) 级； （5) 结果写回 WB (Write Back ) 级。级与级之间设置有流水线寄 
存器，用来保存中间结果。一级占用一个周期。这样的流水线 CPU 能同时执行 5 条 
指令，每条指令处在不同的级，从而增大指令的吞吐率。 

从1980年开始， CPU 的速度提高很快，但动态存储器 DRAM (Dynamic Random 
Access Memory ) 的速度改进不大，这就造成了二者之间不匹配。因此现在的 CPU 芯 
片中都集成有指令 Cache 和数据 Cache ， 见图 1.4。 Cache 是小容 M 的高速存储器，用 
来存放经常使用的指令或数据。如果在 Cache 中存放的指令或数据第二次被用到， 
则不用访问存储器，直接从 Cache 中得到，从而加快了访问速度。 



图1 .4 CPU 中的指令 Cache 和数据 Cache 
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现在的计算机中的主存 （Main Memory ) —般都使用 DRAM 。 DRAM 具有容量 
大且价格便宜等优点，缺点是速度慢且控制时序复杂。有钱人会使用静态存储器 
SRAM (Static RAM ) 0 SRAM 价格昂贵且费电，但速度快且控制电路简单。 

1.2.2 多线程 CPU 和多核 CPU 


与单周期 CPU 相比，流水线 CPU 大大地提高了性能，它的理想性能是每个时 
钟周期执行一条指令。超标量 ( Superscalar ) CPU 试图在一个周期取出多条指令并行 
执行。但由于指令之间的相关性，即一条指令使用前一条指令的结果，超标 M CPU 
的性能大概是一个周期能执行 1.2 条指令(统计值)。而为了取得这20%的性能改善， 
超标量 CPU 要增加大量的硬件电路来调度这些同时取出的指令，比如使用寄存器重 
命名、预约站、重排序缓冲区等。超标量 CPU 不可能再进一步提高性能了，这是由 
指令级的并行度 1 LP (Instruction Level Parallelism ) 所决定的。即使编译器可以使用诸 

如循环展开等优化技术，超标量 CPU 对性能的改善也很有限。 

多线程 ( Multithreading ) CPU 试图并行执行多个线程。一个线程就是一段能够独 
立执行的程序，再加上执行时所需的环境。一个简化的能够同时执行四个线程的多 
线程 CPU 的结构在图 1.5 中给出。 



图 1.5 简化的多线程 CPU 结构示意图 

图 1.5 中的 PC 是程序计数器， RF 是寄存器堆， Ft ! (Functional Unit ) 是功能部 
件，比如 ALU 和 FPU (Floating Point Unit )。 没标名字的是流水线寄存器，用来保存 
中间运算结果。多线程 CPU 的特点是所有线程共享功能部件和 Cache , 这有利于提 
高这些部件的使用效率，但增加了硬件设计的复杂度。总之，多线程 CPU 试图通过 
线程级的并行度 TLP (Thread Level Parallelism ) 来提高 CPU 的性能。 

多核 ( Multi - Core ) CPU 是在一个芯片中集成多个核 ( Core )。 一个核就相当于一个 
普通的 CPU 1 。 一 个简化的四核 CPU 的结构在图 1.6 中给出，所有的核可以共享第二 
级 Cache , 图中没有画岀。 

我们可以认为多核 CPU 是把小规模的多处理机 ( Multiprocessors ) 集成在一个芯 
片上。学术界最早使用的名称是 Chip - Multiprocessors 。 与多线程 CPU 相比，多核 


1 普通的 CPU 不是多核 CPU , 否则该定义就没完没了地递归了。 
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阁 1.6 简化的四核 CPU 结构示意围 


CPU 具有设计简单的优点，但功能部件的利用效率没有多线程 CPU 高。 

我们可以很自然地想到，多核 CPU 中的每个核又可以是一个多线程 CPU 。 这样 
的 CPU 可称做多核多线程 CPU , 或多线程多核 CPU (名称有些过长)。 IBM 、 Intel 和 
AMD 都生产了这样的 CPU 。 

一般地讲，多核 CPU 中的每个核可以独立工作，因为它本身就是一个 CPU 。 这 
样的 CPU 可以实现多指令流多数据流 MIMD (Multiple Instruction Streams on Multiple 
Data Streams ) 功能。我们不妨把诸如 IBM Cell CPU 也称做多核 CPU。Cell CPU 中 
有多个处理单元 PE (Processing Element )， 所有的 PE 执行相同的指令，对多个数据 
同时做同样的运算。我们称这样的 CPU 实现的是单指令流多数据流 SIMD (Single 

Instruction Stream on Multiple Data Streams ) 功能。 


1.2.3 存储层次和虚拟存储器管理 

存储器（主存）是用来暂时存放正在执行的程序的地方。 一 个程序包含指令和数 
据。 CPU 从存储器读出指令，对数据进行计算。前面我们已经讲过，由于存储器的 
速度比 CPU 慢得多，因此 CPU 片内集成有小 容董的 高速存储器，即 Cache 。 



图 1.7 存储层次的概念 

图 1.7 示出的是典型的存储层次 Q Cache 有片内 ( On - Chip ) 和片外 （ Off - Chip ) 之 
分。片是指 CPU 芯片。片内 Cache 可以有两级，第一级一般是分开的指令 Cache 和 
数据 Cache ， 第二级 Cache 由指令和数据共享。寄#器堆的速度最快，不过它只存放 
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数据。硬盘的容量最大但速度最慢。硬盘除了保存文件，还有另一个重要的工作， 
就是与主存一起，为用户提供一个较大的虚拟存储空间，即虚拟存储器。 

虚拟存储器 (Virtual Memory ) 允许用户使用比实际存储器容量还要大的存储空 
间。每个进程 2 ( Process ) 都有一个从地址0开始的虚拟地址空间。我们知道，当一个 
计算机投入运行时，进程的数量不止一个，其中很多是操作系统的进程。用户也可 
以同时执行多个程序，即有多个用户进程。 

如果令所有的进程都使用虚拟地址直接访问存储器，那么大家就都从0地址开 
始使用主存。显然这是不行的。因此，我们需要有一种机制，使不同的进程使用主 
存的不同区域。这就需要对进程的虚拟地址进行转换，用转换后的实际地址去访问 
存储器。 

在以“页” ( Page ) 为单位对存储器进行管理的机制中，虚拟地址空间和主存都被 
分成大小固定的页。这样，一个虚拟地址就可以分成两 部分： 高位部分是页号，低 
位部分是页内的偏移 M 。 对虚拟地址进行转换时，只需转换页号就行了。 

操作系统有一个很大的页表 （Page Table ), 用来实现地址转换。方法是使用虚拟 
页号访问页表，从中得到实际页号。那么页表在什么地方呢？也在主存中。有的页 
表还分成若干层。那么地址转换岂不是要花很长的时间吗？是。因此现在的 CPU 都 
集成有类似于 Cache 的高速缓冲区，专门用于地址转换。这个缓冲区的名称是 TLB 

(Translation Lookaside Buffer ), IBM 起的。 

图 1.8 是使用 TLB 转换存储器地址的概念图。图中还列出了其他的一些名称， 
分成左右两组。每组中的名称在一般情况下都有相同的意义，但依 CPU 不同，这些 
名称的意义可能会有所不同。 



图1 .8 使用 TLB 转换存储器地址 


1.2.4 I / O 接口和总线 

CPU 通过 I / O 接口来访问 I / O 设备。一个计算机系统中有很多 I / O 设备，因此在 
系统中往往设置有总线 （ Bus )。 所有的 I / O 设备通过 I / O 接口连到总线上，如图 1.9 所 
示。一条总线除了有地址/数据线和读写控制线，还有一些用于同步的信号线。图中 
画有两级总线，它们之间用总线接口连接。 

当 I / O 设备准备好要与 CPU 通信时，可以通过 I / O 接口向 CPU 发出中断请 
求。 CPU 收到请求后，停止当前程序，转去执行中断处理程序。在中断处理程序 


2 进程是操作系统中最基本的概念。一个进程是指一个正在执行的程序和执行时所使用的环境。 
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图 1.9 I / O 接口在计算机系统中的位置 


中， CPU 可以使用指令来读写 I / O 数据，然后返回到原来的程序继续执行。读写 I/O 
数据的指令依 CPU 的不同而不同。在使用存储器映像的 I / O 空间的情况下， CPU 可 
以用和访问存储器相同的 Load / Store 指令来读写 I / O 数据。如果使用与存储器空间分 
开的1/0空间，则必须要有专门的 I / O 指令，比如 x 86 的 in 和 out 指令。 

1.3 如何提高计算机的性能 

提高计算机的性能可以从两方面着手。一是改进集成电路的工艺，减小线宽， 
增加晶体管数 M 以及提高 cpu 的时钟频率。二是改进体系结构，减少一条指令执行 
所需要的平均的时钟周期的数 M ， 比如使用流水线、超标 M 、 多线程和多核技术。 
实际上，在过去的五十年里，工艺的改进对计算机性能提高的贡献远比改进体系结 
构对性能提高的贡献要大。但时钟频率总是有个界限在那里，所以从事体系结构研 
究的人要努力了。 

1.3.1 计算机性能和性能评价 

单从时间的角度观察性能，同样一个程序，计算机执行它时所用的时间越短， 
它的性能就越好。因此我们可以认为性能是执行时间的倒数。那么如何计算一个程 
序的执行时间呢？我们有下面的 公式： 

T = I x CPI X TPC 

其中 ， I ( Instructions ) 是被执行的指令的总数 ， CPI (Cycles Per Instruction ) 是每条指令 
执行时所需要的平均的时钟周期数 ， TPC (Times Per Cycle ) 是时钟周期的时间长度。 
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阁 1.10 Amdahl’s Law 曲线 

1.3.2 踪迹驱动模拟和执行驱动模拟 


实际上，全世界的许多研究者都正在为如何减小上述公式中的每一个参数而努 
力地奋斗着。编译器和体系结构的设计者偏重于减小 I ;体系结构和 CPU 的硬件设 
计者试图减小 CPI ; 而 CPU 和集成电路的设计者想要减小 TPC 。 

这三个参数并不是完全独立的，比如 CISC 试图使用复杂的指令减小 I ,但会引 
起 CPI 和 TPC 的 增大； 而 RISC 可以减小 CPI 甚至 TPC ， 但会引起 I 的增大。 

CPI 的倒数是 IPC (Instructions Per Cycle )， 即每个周期能执行多少条指令。当 
然， IPC 的值是越大越好。自从超标量技术问世之后，人们更多地使用 IPC ， 而不是 
CPI , 虽然二者并没有本质的差别。 

在讨论计算机性能的改善时，人们经常使用 Amdahl’s Law 来计算某个部件的优 
化对整体性能有多大的改进。假设我们把某个部件优化了 n 倍，即所需时间是原来 
的 1/ n ， 但执行一个程序时，用到该部件的时间百分比是 r ， 则整体性能的加速比是 

s= Pn = To = _ To _ = 1 

P 0 T n T 0 X r/n + T 0 X (1 — r ) r / n +( l — r ) 

其中， P n 和 P 。 分别是优化后的整体性能和优化前的整体性能， T n 和 T 。 分别是优化 
后程序的执行时间和优化前程序的执行时间。从式中可以看出，即使 n — oo , S 也 
有上限 1/(1 — r )。 假设 r = 50%，那么 S 最大也就是2。图 1.10 示出 Amdahl’s Law 
在不同的 n 和 I •下的一些曲线的例子，从中我们可以看出性能加速比的变化趋势。 



/|\ 

o 


00 


oooooooooo 

0987654321 

—1 


o 


踪迹驱动模拟 （ Trace-Driven Simulation ) 是在体系结构层次上对新的提案的性能 


1.3 如何提高计箅机的性能 
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进行评价的一种方法。它的做法是把实际程序，比如基准程序 （ Benchmark )， 执行时 
的踪迹（比如程序计数器、指令、数据存储器的地址等信息）记录下来，作为一个文 
件保存到硬盘上。这个文件将被用来作为一个模拟器的输入。模拟器是用软件的方 
法实现新的提案并把踪迹作为输入来计算出提案要关心的性能，见图 1.11( a )。 


参数 参数 



(a) 踪迹驱动模拟 


参数 



( b ) 执行驱动模拟 


图1 . 11踪迹驱动模拟和执行驱动模拟 

使用这种方法，我们可以对以下内容进行性能评价，比如指令 Cache 和数据 
Cache 的结构、 ILP 、 转移预测机制、指令预取缓冲区、各种功能部件的利用率等。 
通过对模拟结果的分析，我们可以找出系统性能的瓶颈所在并提出改进的方法（当然 
还要再进行踪迹驱动模拟)。 

踪迹驱动模拟的优点是不涉及具体硬件的实现细节，既可以对还没有实现的新 
的结构进行评价，也可以对现有的结构进行评价，并且可以改变结构的参数来观察 
性能的变化趋势（测试一个巳经实现的系统无法做到这一点，因为参数已经固定)。 

踪迹驱动模拟所需的踪迹文件会很大，如果你要生成很多的 Benchmark 程序的 
踪迹，硬盘空间会被迅速占满。当然你可以把这些文件压缩存放，或者只记录部分 
踪迹。另一种类似的方法不需要存放这些踪迹文件，它就是所谓的执行驱动模拟 
( Execution-Driven Simulation ), 见阁 1.11( b )。 执行驱动模拟器的输入不是踪迹文件， 

而是直接使用实际的基准程序的二进制代码。因此在模拟器中要边模拟执行这些代 
码（相当于产生踪迹）边对提案的结构进行性能评价。 

如果一个 Benchmark 程序的执行踪迹要被多次使用，还是一次性地产生一个踪 
迹文件，使用踪迹驱动模拟方法为上，因为这种方法可以缩短模拟时间（不必每次都 
模拟执行基准程序)。 
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1.3.3 高性能计算机和互联网络 


高性能计算机是指那些包含有多个 CPU 或多台计算机的系统。主要分成两 

类：多处理机 （ Multiprocessors) 系统和多计算机 （ Multicomputers) 系统。前者共享存 
储器，又称并行系统 （Parallel Systems); 后者不共享，又称分布式系统 （Distributed 
Systems) o 超级计算机 (Supercomputers) 和伺服器 (Servers) 一般都是共享存储器的并 
行系统，而用于网格计算 (Grid Computing) 及云计算 (Cloud Computing) 的环境均由 

分布式系统构成(其中会有超级计算机)。 

互联网络 (Interconnection Networks) 在并行系统中占有重要的位置。它连接所有 
的 CPU/ 存储器板， CPU 与远程存储器（非本地存储器）之间的数据传输要经过它才 
能进行，见图1.12。 


图 1.12 高性能计算机和互联 N 络 

全球500强超级计算机的排名每年在 top 500. org 网页上公布两次。500强超级计 
算机中大致上有90%的 CPU 是 Intel 或 AMD 的 x 86 系列，其余的10%使用 RISC 系 
列的 CPU 。 不过在伺服器中，低档的使用 X 86 CPU ， 高档的使用 RISC CPU 。 

前面提到的 Amdahl’s Law 也适用于计算高性能计算机的性能加速比。如果一个 
程序中有1%的代码必须是串行执行的，那么不管 CPU 的数量再多，总的加速比也 
不会超过100 (参照图 1.10 中 r = 99%的曲线)。因此，为高性能计算机，包括单片 
的多核 CPU 的计算机，提供并行度高的程序，才能冇效地发挥系统的高性能。 

1.4 硬件描述语言 

硬件描述语言 （Hardware Description Languages ) 是设计硬件时使用的语言，比用 
逻辑图设计方便多了，尤其是当电路规模越大时，这种感觉就越强烈。硬件描述语 




1.4 硬件描述语言 
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言有许多种，其中最常用的有 VerilogHDL 和 VHDL 。 注意二者虽然都以 V 开头，但 
不是相 N 的语言，都有各自的 IEEE 标准。还要注意 Verilog 和 Verilog HDL 是两种不 
同的东西，前者是逻辑检验器 (Verilog 来自于 Verifying Logic ) ,后者是语言。 

以下是用 Verilog HDL 实现的一个4位计数器电路的代码 time _ counter _ verilog . v 0 
文件名任意，文件扩展名必须是 . v 。 模块 （ module ) 名必须与文件名一致。输入信号 
有两个： enable 和 elk , 输岀信号一个 ： my . counter , 4位，是 reg (寄存器）类型。当 
enable 为1时，用 elk 的上升沿计数。 always 是关键字， posedge 也是关键字，表示 
上升沿。另外，赋值符号<=也可以用=。你看，即使你不懂很低层的硬件设计， 
也可以设计硬件，就像不懂汇编和机器码语言也能用 C 或 Java 来开发软件一样。 


module time 一 counter 一 verilog (enable, elk, my 一 counter); 

input enable, elk; 
output [3:0] my—counter; 
reg [3:0] my—counter; 
always @ (posedge elk) begin 

if (enable) 

my—counter <= my 一 counter + 4'hi; 

.end 

endmodule 


计数器的仿真波形在图 U 3 中给出，是用 Altera 公司的 Quartus II Web Edition 
仿真的。 my—counter 用十六进制表示。当 enable 为1时，计数；当 enable 为0时， 
计数停止。计数值在 elk 的上升沿处立即改变，这是因为我们使用的是功能仿真，没 
有考虑电路器件的延迟时间。 


db/time counter verilog.sim.cvwf 


Master Time Bar 890.0 n$ Pointer: 77.46 ns Interval: -812.54 ns Start 


n»o 


録 2 


Name 


enable 

elk 

my counter 


Q 回® 


End; 



阁 1.13 计数器仿真波形 


以 T 是用 VHDL 实现相同的计数器的代码 time _ counter _ vhdl . vhd , 好像比 Verilog 
HDL 烦琐一些。有人讲 VerilogHDL 像 C 语言， VHDL 像 C ++。当然，只从一两个 
例子还不太能看清楚。 

LIBRARY ieee; 

USE ieee.std—logic 一 1164.all; 
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ENTITY time 一 counter—vhdl IS 

PORT ( 

elk : IN STD_LOGIC; 

enable : IN STD_LOGIC; 

my 一 counter : OUT INTEGER RANGE 0 TO 15 

♦ 

)； 

END time counter vhdl; 

ARCHITECTURE a 一 ent OF time 一 counter 一 vhdl IS 
BEGIN 

PROCESS (elk) 

VARIABLE ent : INTEGER RANGE 0 TO 15; 

BEGIN 

IF (clk f EVENT AND elk = f l f ) THEN 

IF enable = f l f THEN 
ent := ent + 1; 

END IF; 

END IF; 

my — counter <= ent; 

END PROCESS; 

END a 一 ent; 

以下是用 Altera 公司的 AHDL 实现相同的计数器的代码 time . counter _ ahdl . tdf 0 
很硬，硬到连 D 触发器 DFF 都直接用 h 了。 

SUBDESIGN time—counter 一 ahdl ( 

enable, elk : INPUT; 

my—counter [3••0] : OUTPUT; 

) 

VARIABLE 

counter [3..0] : DFF; 

BEGIN 

counter[].elk = elk; 

my 一 counter[] = counter[].q; 

IF enable THEN 

counter[] = counter [] + 1 ； 

ELSE 

counter[] = counter[]; 

END IF; 

END; 

Altera Quartus II 也支持 VHDL , 当然更支持 AHDL 了，因为那是 Altera 公司自 
己的语言。 VHDL 和 AHDL 的仿真波形与图 1.13 类似，不再给出。上面的 Verilog 
HDL 代码的例子使用了较高级别的描述风格。实际上 ， Verilog HDL 的风格可以低到 
逻辑门 （ Gates ) 级甚至晶体管级。本书并不详细描述 Verilog HDL 语言本身，而是使 
用它来设计我们的 CPU 及 I / O 接口和总线控制器。 



1.5 习题 
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1.5 习题 

1. 列宁说过，忘记过去就意味着背叛。调査一下什么是 DJS -130 和手拨13条。 

2. 简述 RISC 和 CISC 的主要差别。 

3. 详细调査本章给出的 x 86 和 MIPS 汇编指令二进制代码中每一位的意义，即它 
们的指令格式及指令操作码和寄存器的编码，并比较它们的优缺点。 

4. 为什么说微程序的方法不易实现指令的流水线操作？ 

5. 假设我们有两台计算机 Ml 和 M 2。 Ml 的主频是 1 GHz ， M 2 是 2 GHz 。 每台计 
算机的指令都有4类，它们的 CPI 分别为1、2、3和4。当同样一个用高级语 
言编写的程序在两台机器上分别编译并执行时，我们得到下表所列的结果。 


计算机 

主频 

CPI 

执行 

1 

2 

3 

4 

指令数 

Ml 

1GHz 

50% 

35% 

10% 

5% 

20 200 000 

M2 

2GHz 

10% 

10% 

30% 

50% 

22 000 000 


其中的百分比是执行时每类指令出现的频率。试分别计算该程序在两台机器上 
的执行时间。如果单从执行时间上考虑，哪一台机器的性能更好？ 

6. 试计算上题中两台计算机的 MIPS (Million Instructions Per Second ), 即每秒能执 
行多少百万条指令。 

7. 如果使用1 000000个 CPU 构建一个并行系统并想得到单 CPU 系统500000倍 
的性能，那么程序中允许出现的串行执行的代码的比例应该不超过多少才行？ 

8. 下载并安装 Altera Quartus II Web Edition 3 , 然后试着仿真本章最后给出的用三 
种硬件描述语言设计的计数器代码。 


3 作者在书写本书时使用的是 Quartus II Web Edition 9.0 。 













第 2 章逻辑电路及 VerilogHDL 简介 


逻辑电路的设计是计算机设计的基础。本章简要介绍逻辑电路设计和基本的 
VerilogHDL 的用法。比逻辑电路低一层的是晶体管开关级的电路，本章也简要介绍 
如何使用 CMOS 晶体管来设计常用的逻辑门。比晶体管开关电路再低一层的是 VLSI 
集成电路，其内容已超出了本书的范围。 

需要说明的一点是，本书不是 Verilog HDL 的手册或大全。本书的重点是介绍 
如何使用 Verilog HDL 设计计算机或 CPU 。 如果读者想要全面了解 Verilog HDL , 买 
一本英文原版或中文翻译的书，或者干脆从网 t 下载791页的 IEEE Standard Verilog 
Hardware Description Language，IEEE Std 1364-2001 (Revision of IEEE Std 1364-1995)， 

PDF : SS 94921 手册 【 31 】。 


2.1 基本逻辑门和常用逻辑门 

逻辑电路由逻辑门 (Gate) 组成。最基本的逻辑门有 3 个，它们是与门 （ AND )、 
或门 （ OR) 和非门 (NOT )。 另外还有 4 个常 用门: 与非门 （ NAND )、 或非门 （ NOR )、 
异或门 (XOR) 和同或门 （ XNOR )。 图 2.1 所示的是测试这些逻辑门的电路。这种电路 
图式的输入方法，英文称做 Schematic Capture ， 是一种最直观的、但工作量有点大且 
修改起来比较麻烦的一种输入方法。电路的输人信号有 两个： 信号 a 和信号 b 。 输出 
信号有 7 个： 一个门一个。注意，信号名称可以随便取，逻辑门的输入/输出端也不 
必用线连到相应的输人输出信号端，只要给它们标注上相应的信号名就行。 


AND2 



f_and 

f_or 

f_not 

f_nand 

f_nor 

fjcor 

f_xnor 


另外需要说明的是，本书所使用的逻辑门的符号是国际上比较流行的符号，看 
起来比较直观。以下是7个门的逻辑表达式。注意，这里的“ + ”代表“或”操作， 
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而不是相加。其中的 ab = 5 + 6和 a + 6 = 被称做迪摩根定理 （ DeMorgan’s 

Law ), 由出生在印度的英国数学家 Augustus DeMorgan (1806—1871) 最早提出。 

与门 AND ： f^and = a • b = a b 
或门 OR ： Lor = a + b 

非门 NOT ： f_not = a 

与非门 NAND ： f_nand = a b = a -h b ( DeMorgan’s Law ) 

或非门 NOR ： f_nor = a + b = a b ( DeMorgan’s Law ) 

异或门 XOR ： f_xor = a ㊉ b = 5 b + aB 

同或门 XNOR ： f_xnor = a©b = 56 + ab = a®b 


表 2.1 列岀了 7 个逻辑门在不同的输入下的输出。输入输出信号的0和1分别代 
表信号的电平为低和高。这也是我们对图 2.1 电路进行功能仿真时所期望出现的结 
果。表 2.1 也有一个好听的 名字： 真值表 (Truth Table )。 



现在我们介绍如何使用基本的逻辑门来设计组合电路。逻辑电路有两种 类型： 

组合电路 (Combinational Logic Circuits ) 和时序电路 (Sequential Logic Circuits )。 组合 

电路的输出只与当前的输入有关，时序电路不但与当前输入有关，而且与过去的输 
入(历史)有关。 

我们通过一个具体的例子来讲解组合电路的设计方法。假设我们的组合电路有 
一个输出信号 y 和3个输人信号 a 0、 al 和 s 。 电路要完成的任务 是：当 s 为低电平 
时， y 与 a 0 相同，否则与 al 相同。我们把这个电路命名为一位二选一多路器，用 
mux 2 xl 表示。设计组合电路的步骤 如下： 

1) 根据问题的描述画出真 值表； 

2) 使用卡诺图 （Karnaugh Map ) 化简，得到输出信号的逻辑表 达式； 

3) 根据逻辑表达式画出逻辑电 路图； 

4) 对电路图进行仿真以检查电路的逻辑是否满足我们的要求。 

现在我们画出 mux 2 X l 的真值表，见表2.2。图 2.2 所示的是使用卡诺图化简， 
得到输出信号 y 的逻辑表达式 ： y = s a 0 + s alo 图 2.3 是电路图。图 2.4 所示的是 
仿真结果，其中低电平代表 0, 高电平代表 1。 
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表 2.2 —位二选一多路器真值表 


输入信号 

输出信号 

注释 

S 

al 

aO 

y 

0 

0 

0 

0 


0 

0 

1 

1 

y 与 aO 相同 

0 

1 

0 

0 

0 

1 

1 I 

1 


1 

0 

0 

0 


1 

0 

1 

0 

y 与 al 相同 

1 

1 

0 

1 

1 

1 

1 

1 




s aO 


s al 


图 2.2 


位二选一多路器的卡诺图化简 


aO 


AND2 


al 

s 


t> 


D 


OR2 


AND2 


D 


y 




1^ al 

aO 

-E> y 


阁 2.3 —位二选一多路器的电路阁 



阁 2.4 —位二选一多路器的仿真结果 


2.2 用 Verilog HDL 实现基本的逻辑操作 


Verilog HDL (Hardware Description Language) 是一种设计硬件电路的语言，由 

IEEE 完成了对其标准化的 T •作。 VerilogHDL 总体来讲带有 C 语言的风格，是工业 

界常用的硬件描述语言。另一种具有 C ++ 风格的硬件描述语言是 VHDL ， 也有 IEEE 

的标准。比这两种语言层次更高的是 SystemC ， 一种系统级的描述语言。本书只使用 
Verilog HDL 。 


2.2 用 Verilog HDL 实现基本的逻辑操作 
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以下是图 2.1 电路的 Verilog HDL 版本。有了它，我们就不用画图了 。 Verilog 
HDL 的一个基本模块由关键字 module 和 endmodule 像括号一样 “ 括”起来。括号的 
内部描述电路要完成的功能。跟在 module 后面的是模块名，然后是输入输出信号。 
该段代码的文件名为 “ gates 7_ structural . v ” ，与模块名相 N ， 只是加了扩展名 .V 。 

module gates7—structural (a,b,f—and,f_or f f 一 not,f 一 nand,f 一 nor,f—xor, 

f 一 xnor); 

input a,b; 

output f 一 and,f 一 or,f 一 not,f 一 nand,f_nor f f_xor,f_xnor; 
and il (f—and,a,b); 
or i2 (f_or,a,b); 
not i3 (f—not,a); 
nand i4 (f 一 nand, a, b); 
nor i5 (f_nor,a,b>; 
xor i6 (f_xor,a,b); 
xnor i7 (f_xnor, a, b); 
endmodule 

Verilog HDL 有多种层次的设计方法。该例使用了比较“低级”的方法，我们这 
里暂且称其为“逻辑门级”的描述方法。它与图 2.1 的电路完全等同。 input 和 output 
是关 键字： 声明哪些是输入信号哪些是输出信号。其余各行的最左单词也是关键 
字，分别代表上面提到的7个逻辑门。它们也是该模块的主体。跟在这些关键字后 
面的是给相应逻辑门起的名字。括号内的第一个变 M 是相应逻辑门的输出信号，其 
余的是输入信号。 

模块代码写好后，首先要对它“编译”，看看它是否符合 Verilog HDL 的语法规 
则。因此，一个 Verilog HDL “编译器”是必不可少的。刚开始接触 Verilog HDL 时， 
难免会出现许多语法错误。熟练之后，语法错误就慢慢变少了。 

即便是语法正确，也不能代表电路能正常工作。为了确认代码是否能完成我们 
所期望的任务，我们还要对它进行“检查”。检查的方法是给输入信号指定所有可能 
的输入组合，让模块的主体“计算’’出相应的输出。然后我们把计算出的输出与我们 
所期待的输出进行比较，检査它们是否正确。因此，作为电路的设计者，你必须知 
道电路的输出应该是什么。如果你不知道，即便电路错了你也查不出来。 一 般的情 
况是你原来预想的是正确的，由于代码写错了而计算出错误的结果。这时你要检査 
代码到底错在哪里。作者也经历过一些有意思的事情，那就是代码是正确的，而原 
来预想的结果是错误的。也有这种情况 出现： 仿真结果和预想的一致，但二者都是 
错误的。这样的错误比较难发现。 

计算代码输出的任务由 Verilog HDL “仿真器”完成。因此，我们需要有一个集 
Verilog HDL 编译器和仿真器于一身的软件。这样的软件大多由著名的公司开发，例 
如 Cadence ， Synopsys，Mentor Graphics，LogicVision 等。也有 一 些公司提供免费的 
软件，例如 Altera 和 Xilinx 等。本书绝大部分代码使用 Altera 公司的 Quartus II 进行 
编译和仿真。由于基本的 Quartus II 不支持“晶体管开 关级” 的代码，本书作者从网 
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上下载了一个非常不错的软件 ： Icarus Verilogo 这是一个源代码公开的软件，编译后 

生成 iverilog 、 iverilog-vpi 和 vvp 。 

我们使用 iverilog 和 wp 对上述模块进行编译和仿真。为此，我们需要准备 一 
个供测试用的模块，如下所示。文件名为 “ gat eS 7_ stmcturaLtest . v ” 。该测试模块本 
身对逻辑电路不产生任何影响。测试模块大致由三部分 组成： 第一部分调用被测试 
的 模块； 第二部分用各种输入组合来测试 结果； 第三部分指定输出文件名。由于第 
二部分要对输入信号反复赋予不同的值，在模块的开始处要把所有的输人信号声明 
为 “ reg ” 类型。该类型的本意是寄存器 （ Register ), 但实际上它根本不是真正的寄存 
器。#后面的数字是单位时间数，即过了多长时间才开始做后面的工作。测试结果由 
$ display 语句显示在屏幕上。双引号括起来的是要显示的内容，其中的％1)代表它后 
面的信号用二进制格式显示。该例中 $ display 语句太多了有点烦，以后我们会介绍不 
烦的 Smonitor 语句。注意， initial 语句只用于仿真。 

'include "gates7 一 structural•v" 
module gates7 一 structural_test; 

reg a,b; 

gates7—structural g7 (a,b,f 一 and,f 一 or,f 一 not, 

f 一 nand,f 一 nor,f 一 xor,f—xnor); 

initial begin 



a = 0; 

b 

— 

o ； 





#1 

$display 

r 

a=%b'a," 

b=%b f, ,b f ,f 

f_and=%b", f- 

—and, 




n 

f. 

■or=%b", f 

一 or, ’’ f—not=%b n , f—not 

9 




vt 

f_ 

一 nand=%b w 

,f_nand, •’ 

f—nor=%b", f. 

一 nor. 




VI 

f. 

_xor=%b" , f_xor f ,f f_ 

一 xnor=%b",f 一 

xnor); 

#1 

a = 1 ; 

b 

一 

0; 





#1 

$display 

( f, 

a=%b",a,” 

b=%b",b,，• 

f_and=%b f, f f 

一 and. 




IV 

f. 

_or=%b", f 

—or," f—not=%b",f 一 not 

9 




IY 

f_ 

_nand=%b", f 一 nand, ’• 

f__nor=%b f, , f 

一 nor. 




If 


—xor=%b", 

f xor, " f 

一 xnor=%b” ， f_ 

xnor); 

#1 

a = 0; 

b 

= 

1 ； 





#1 

$display 

r 

a=%b f, / a / w 

b=%b W 

f—and=%b", f. 

—and. 




n 

f. 

一 or=%b，、f 

一 or, " f_not=%b ,t , f—not 

i 




n 

f. 

_nand=%b” 

,f—nand," 

f—nor=%b” ， f, 

一 nor f 




VI 


一 xor=%b", 

f—xor, " f_ 

_xnor=%b",f 一 

xnor); 

#1 

a = 1; 

b 

= 

1 ； 





#1 

$display 

r 

a=%b” ， a,” 

b=%b",b ， 

f—and=%b", f. 

一 and. 




it 


一 or=%b",f 

_or, " f__not=%b f, f f 一 not 

9 


” f__nand=%b f, f f—nand, n f__nor=%b n , f 一 nor, 

” f—xor=%b", f—xor, " f_xnor=%b ,f f f__xnor); 


#1 a = 0; b = 0; 

#1 $finish; 

end 

initial begin 

$dumpfile( n gates7_struetural.ved"); 
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$dumpvars; 

end 

endmodule 

我们在这段代码的开始处使用了 include 把“ gates 7_ structural.v ”调进来，这 
样在用 iverilog 编译时只要输入文件名 “ gates 7_ structural _ test . V” 就行了。代码中的 
$ dumpfile 和 Sdumpvars 语句用来记录仿真结果，供波形编辑软件（比如 gtkwave ) 使 
用。仿真结果的文件名为 “ gates 7- Structural.vcd ”， vcd 是 Value Change Dump 的缩 
写。它是 ASCII 文本型文件，用来记录各信号值的变化情况。注意， $ dumpfile 和 
Sdumpvars 不影响 Sdisplay ， 如果你不想使用波形编辑软件，这段代码可以删除。 

以下是使用 iverilog 和 wp 在 Linux 环境下对 “ gates 7_ structural _ test . v ” 进行编译 
和仿真时产生的输出。如果不加以指定， iverilog 生成的文件为 a . out 。 虽然我们使用 
了 wp 命令，但 a . out 似乎和 C 程序生成的 a . out —样，可以直接运行。 

[yamin@localhost cpu] $ iverilog gates7 — structural 一 test•v 
[yamin@localhost cpu] $ wp a.out 

VCD info: dumpfile gates7 一 structural•vcd opened for output• 
a=0 b=0 f__and=0 f_or=0 f_not=l f—nand=l f_nor=l f_xor=0 f—xnor=l 

a=l b=0 f—and=0 f_or=l f_not=0 f—nand=l f—nor=0 f_xor=l f—xnor=0 

a=0 b=l f—and=0 f 一 or=l f 一 not=l f—nand=l f 一 nor=0 f—xor=l f—xnor=0 

a=l b=l f_and=l f 一 or=l f 一 not=0 f_nand=0 f—nor=0 f_xor=0 f—xnor=l 

[yamin@localhost cpu]$ 

顺便提一句 ， Icarus Verilog 也有 Windows 版本。由于作者喜欢使用 Linux ， 也就 
没有去试 Windows 版本的 Icarus Verilog 0 另外，使用 emacs 编辑 Verilog HDL 源程序 
时，最好下载并安装一个 Verilog HDL 的 emacs - lisp 程序 verilog - mode . el ,这样编辑 
起 Verilog HDL 程序时感觉非常爽，关键字的颜色和格式设计得相当不错。现在，你 
可以把仿真输出与表 2.1 相比较，看看结果是不是你想要的。 

下面的 Verilog HDL 代码也完成和 gates 7- Structural . v 同样的任务，但代码的风 

格与“逻辑门级”代码不同。这里的代码类似于逻辑表达式，我们称其为数据流 
( Dataflow ) 的描述方法。 assign 是关键字，是对信号赋值的意思。记住代码中的操作 
符号所代表的意义，特别是 AND 和 OR 的操作符号，它们与逻辑表达式中使用的符 
号是不同的。另外，代码中的括号是必需的，因为取反操作的优先级是最高的。 

module gates7_dataflow (a,b,f_and,f_or,f 一 not,f_nand,f 一 nor,f_xor, 

f 一 xnor); 

input a,b; 

output f 一 and, f 一 or, f 一 not, f—nand, f 一 nor, f_xor, f_xnor; 

assign f 一 and = a & b; 

assign f_or = a | b; 

assign f_not = ~ a; 

assign f 一 nand = '(a & b); 

assign f_nor = ~(a I b); 

assign f_xor = a " b; 
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assign f 一 xnor = ^ (a " b) ; . 
endmodule 

下面是供测试用的代码，我们使用了 Smonitor 语句和 $time 变量输出仿真结 
果。比起 $display 语句， $monitor 语句要方便得多。 

'include ’’gates 7 一 data flow .v” 
module gates7_dataflow_test; 

reg a, b; 

gates7 一 dataflow g7 (a,b,f_and,f—or,f_not, 

f 一 nand,f 一 nor,f—xor, f_xnor); 

initial begin 

$display( H time\ta\tb\tand\tor\tnot\tnand\tnor\txor\txnor w ); 
#0 a = 0; b = 0; 

#1 a = 1; b = 0; 

#1 a = 0; b = 1; 

#1 a = 1; b = 1; 

#1 a = 0; b = 0; 

#1 $finish; 

end 

initial begin 

$monitor ( f, %2d:\t%b\t %b\t%b\t %b\t%b\t%b\t%b\t%b\t%b ,f f 

$time,a,b,f_and,f—or,f—not,f—nand,nor,xor,f 一 xnor); 
$dumpf ile ( H gates7_dataf low. vcd ff ); 

$dumpvars; 

end 

endmodule 

仿真的结果如下所示。注意结果中最左边的数字，它们是 $time 变量的产物。试 
着改一下测试代码中#后面的数字，看看结果会有什么变化。 

[yamin@localhost cpu] $ iverilog gates7 一 dataflow 一 test•v 
[yamin@localhost cpu]$ vvp a.out 


VCD info : 

dumpfile gates7 一 

一 dataflow 

.vcd 

opened 

for output 

• 


time a 

b 

and 

or 

not 

nand 

nor 

xor 

xnor 

0: 0 

0 

0 

0 

1 

1 

1 

0 

1 

1: 1 

0 

0 

1 

0 

1 

0 

1 

0 

2: 0 

1 

0 

1 

1 

1 

0 

1 

0 

3: 1 

1 

1 

1 

0 

0 

0 

0 

1 

4: 0 0 

[yamin@localhost 

0 

cpu] $ 

0 

1 

1 

1 

0 

1 


图 2.5 所示的是用 gtkwave 显示仿真结果时的画面。注意 wp a . out 仿真结果的最 
后一行（时间 4) 与第一行重复（时间0)，但如果去掉它，用 gtkwave 显示波形，时间 
3的波形出不来。 
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围 2.5 用 gtkwave 显示仿真结果 


以上描述的两个 Verilog HDL 版本 （ gates 7_ structural.v 和 gates 7_ dataflow . v ) 虽然 

完成同样的任务，但完成的方法不同。前者称为结构型描述，后者称为数据流型描 
述 。 Verilog HDL 还有其他风格的描述方法，我们将在后面陆续讨论。 

2.3 逻辑门的 CMOS 晶体管实现以及晶体管级的 Verilog HDL 

以下我们描述如何使用 CMOS 晶体管开关来设计基本的逻辑门。本来这部分内 
容不包含在逻辑设计中，但了解之后会对电路的优化有帮助。比如我们将会看到与 
非门 NAND 用的晶体管数 M 比与 M AND 要少，同样，或非门 NOR 用的晶体管数量 
比或门 OR 要少，因此在电路中使用 NAND 或者 NOR 会节省晶体管的开销。 

2.3.1 CMOS 反向器 


CMOS 的全称是 Complementary Metal Oxide Semiconductor, 意为互补型金属氧 

化物半导体，由 PMOS 和 NMOS 两种晶体管“ 互补” 构成。图 2.6 示出了 PMOS 和 
NMOS 两种晶体管的符号和由它们组成的 CMOS 反向器电路。 

在图 2.6(a) 中，当 PMOS 的栅极输入为低电平时，晶体管导通，漏极的输出与 
源极 相同； 在图 2.6(b) 中，当 NMOS 的栅极输入为高电平时，晶体管导通，漏极 
的输出与源极相同。在图 2.6(c) 中，当输入信号 a 为高电平时， PMOS 晶体管 pi 截 
止， NMOS 晶体管 nl 导通，输出信号 f 与 gnd (低电平） 相同； 当输人信号 a 为低电 
平时， NMOS 晶体管 nl 截止， PMOS 晶体管 pi 导通，输出信号 f 与 vdd (高电平）相 
同。即 ， f = a G 反向器就是一个 NOT 门。 
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栅极 (Gate) 

丄 

源极 (Source) 漏极 （ Drain) 



(a) PMOS 晶体管 


(b) NMOS 晶体管 



(c) CMOS 反向器 


图 2.6 CMOS 反向器电路图 


电路电源的低电平用 gnd 表不，高电平用 vdd 表不， 有时也用 vcc 表 7 K 。 一 般 
的约定是使用双极型晶体管 (Bipolar Junction Transistor ) 时用 vcc , 比如 TTL 电路； 
使用场效应晶体管 （Held Effect Transistor ) 时用 vdd ， 比如 MOS 电路。随着 TTL 和 
MOS 技术的交叉使用，它们之间的界限也变得模糊不清了，比如 CMOS 74 HC 系列 
就使用 vcc 和 gnd 来命名电源和地的管脚。 

以下是图 2.6( c ) 电路的 Verilog HDL 代码，其中 supplyl 、 supplyO、pmos 和 nmos 
是关键字 。 supply 1和 supplyO 提供电源和地； pmos 和 nmos 分别代表 PMOS 和 
NMOS 晶体管，它们的输入输出信号的次序为漏极、源极和栅极。代码中的双斜杠 
表示其后面的一行是注释，与 C 语言程序的用法相同。 

module cmosnot (f,a); 

input a; 
output f; 
supplyl vdd; 
supplyO gnd; 

// pmos name (drain,source,gate); 

// nmos name (drain,source,gate); 
pmos pi (f,vdd,a); 
nmos nl (f,gnd,a); 
endmodule 

CMOS 反向器的测试代码如下。 

'include "cmosnot•v" 
module cmosnot 一 test; 

reg a, b; 
wire f; 

cmosnot not 一 1 (f,a); 
initial begin 

a = 1; 

#1 a = 0; 

#1 a = 1; 

#1 $finish; 


end 
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initial begin 

$monitor ($time, " : a = %b; 99 , a f 99 f = %b; w ， f); 

$dumpf ile (” cmosnot • vcd ”）； 

$dumpvars; 

end 

endmodule 

下面是 CMOS 反向器的仿真结果。我们可以看出输出与输入电平相反，这就是 
反向器的作用。 

[yamin@localhost cpu] $ iverilog cmosnot 一 test.v 
[yamin@localhost cpu]$ vvp a.out 

VCD info : dumpfile cmosnot.vcd opened for output. 

0: a = 1; f = 0; 

1: a = 0; f = 1; 

2: a = 1; f = 0; 

[yamin@localhost cpu]$ 

2.3.2 CMOS 与非门和或非门 

在与非门电路中，只要有一个输入为低电平，输出就为高电平。图 2.7( a ) 所示 
的是二输入 CMOS 与非门电路。当输人信号 a 和 b 同时为高电平时，串联的晶体管 
nl 和 n 2 均导通，并联的晶体管 pi 和 p 2 都截止，这时输出信号 f 为低电平（与 gnd 相 
同)。当输入信号 a 和 b 至少有一个为低电平时，串联的晶体管 nl 和 n 2 至少有一个 
截止，而并联的晶体管 pi 和 p 2 至少有一个导通，这时输岀信号 f 为高电平（与 vdd 
相同)。 


a 


b 



pi 





vdd 




P2 


f 


n2 



nl 


gnd 


(a) NAND 


vdd 


a 


b 


H 




nl 



Pi 




P2 


f 


n2 



(b) NOR 


gnd 



图 2.7 CMOS 与非门 （ NAND) 和或非门 (NOR) 电路图 

以下是 CMOS 与非门的 Verilog HDL 代码。测试代码我们就不再给岀了。 

module cmosnand (out , ina,inb) ; 

input ina,inb; 
output out; 

wire w_n; // connect the 2 nmos transistors 
supplyl vdd; 
supplyO gnd; 
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pmos pi (out,vdd,ina) ; 
pmos p2 (out,vdd,inb); 
nmos nl (out,w_n,ina 〉； 
nmos n2 (w 一 n,gnd,inb); 
endmodule 

图 2.7( b ) 所示的是二输入 CMOS 或非门电路。当输入信号 a 和 b 同时为低电平 
时，串联的晶体管 pi 和 P 2 均导通，并联的晶体管 nl 和 n 2 都截止，这时输出信号 
f 为高电平（与 vdd 相同)。当输人信号 a 和 b 至少有 一 个为高电平时，串联的晶体管 
pi 和 p 2 至少有一个截止，而并联的晶体管 nl 和 n 2 至少有一个导通，这时输出信号 
f 为低电平（与 gnd 相同)。以下是 CMOS 或非门的 Verilog HDL 代码。 

module cmosnor (out , ina, inb> ; 

input ina,inb; 
output out; 

wire w_p; // connect the 2 pmos transistors 
supplyl vdd; 
supplyO gnd; 
pmos nl (out,gnd,ina); 
pmos n2 (out, gnd, inb 〉； 
nmos pi (w_p,vdd,ina 〉； 
nmos p2 (out,w 一 p,inb); 
endmodule 

图 2.8 所示的是二输入 CMOS 与门和或门电路。图中的晶体管 p 3 和 n 3 构成一 
个非门，即与门由与非门加上非门 得到； 或门由或非 H 加上非门得到。因此我们知 
道与门和或门需要6个晶体管，而与非门和或非门只需要4个晶体管。如果我们能 
够在电路中不使用与门和或门，而只使用与非门或者或非门的话，就会减少电路所 
需晶体管的数 M 。 



(a) AND (b) OR 

图 2.8 CMOS 与门 （ AND) 和或门 (OR ) 电路图 


图 2.9 所示的是只使用与非门的一位二选一多路器电路。图 2.9( a ) 是与图 2.3 相 
同的一位二选一多路器电路。图 2.9( b ) 在与门后面加了两个非门，应该不影响逻辑操 
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作的结果。图 2.9( c ) 是把第二个非门和或门结合在一起的画法。由迪摩根定理，我们 
得到最后的、如图 2.9( d ) 所示的使用与非 I ' j 的一位二选一多路器的电路图。 



图 2.9 使用与非门 NAND 的一位二选一多路器电路 

图 2.9 ⑻的二选一多路器需要20个晶体管，而图 2.9( d ) 只要14晶体管就行了。 
其实图 2.9( d ) 中的非门也可以用弓非门来替代（把与非门的两个输入接在一起)。因此 
只使用与非门，我们可以设计任何形式的电路。在实际的门阵列 （Gate Array ) 中，就 
有只有 NAND 门的电路。 


2.4 四种风格的 Verilog HDL 描述 


Verilog HDL 提供不同层次的电路设计方法。我们把它分成如下4种层次或4种 
风格。层次越低，“硬”件设计的气氛越浓厚。 

1) 晶体管开关级 (Switch Level ) 的 Verilog HDL 设计； 

2) 逻辑 N 级 (Gate Level ) 或结构风格 (Structural Style ) 的 Verilog HDL 设计； 

3) 寄存器传输级 （ RTL ) 或数据流风格 (Dataflow Style ) 的 Verilog HDL 设计； 

4) 功能（行为）描述风格 (Behavioral Style ) 的 Verilog HDL 设计。 

以下我们以一位二选一多路器为例，给出所有这4种风格的 Verilog HDL 代码。 
一 位二选一多路器要完成的任务已经在前两节介绍过了。 

2.4.1 晶体管开关级的 Verilog HDL 

图 2.10 是 CMOS 晶体管开关级的一位二选一多路器的电路。图 2.10( a ) 是一个 
CMOS 开关。当输人信号 p . gate 为低电平且 n _ gate 为高电平时， PM 0 S 晶体管 pi 和 
NM 0 S 晶体管 nl 均导通，输出信号 drain 等于输入信号 source 。 阁 2.10( b ) 使用两个 
这样的开关实现二选一。图中虽然画了个非门，但它是 CMOS 的反向器 ( cmosnot )。 
当输人信号 s 为低电平时， CMOS 幵关 c 0 导通， cl 截止 ， y = a 0； 否则， c 0 截 
止， cl 导通 ， y = al 。 
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(a) CMOS 晶体管 （ b) 晶体管级一位二选一多路器电路 

图 2.10 CMOS — 位二选一多路器电路 


以下是晶体管开关级的一位二选一多路器的 Verilog HDL 代码，实现图 2.10( b ) 
的电路，其中 cmosnotnotl ( sn ， s ) 调用已经描述过的 CMOS 的反向器，两个 cmoscmos 
调用 CMOS 开关（图 2.10( a ), 源代码留给读者练习)。 

module mux2xl 一 cmos (a0,al,s,y); 

input s,a0,al; 
output y; 
wire sn; 

cmosnot notl (sn,s); 

// cmoscmos (drain,source,n—gate,p_gate); 
cmoscmos cO (y,a0,sn,s); 
cmoscmos cl 《 y,al,s,sn); 
endmodule 

测试代码及仿真结果如下所示。从结果看出，它确实完成了二选一的任务。 

'include ”mux2xl 一 cmos.v n 
'include "cmoscmos. v ,f 
'include "cmosnot.v n 
module mux2xl cmos test; 

reg s,a0,al; 

mux2xl 一 cmos mux2xl (a0,al,s,y); 
initial begin 



s 

= 

0; 

al 

= 

0; 

aO 

= 

0 

#1 

s 

= 

0; 

al 

= 

0; 

aO 

= 

l 

#1 

s 

= 

0; 

al 

= 

l ； 

aO 

= 

0 

#1 

s 

= 

0; 

al 

= 

l ； 

aO 

= 

1 

#1 

s 

= 

1; 

al 

= 

0; 

aO 

= 

0 

#1 

s 

= 

1; 

al 

= 

0; 

aO 


1 

#1 

s 

= 

1; 

al 

= 

1; 

aO 

= 

0 

#1 

s 

= 

1; 

al 

= 

1; 

aO 

— 

1 

#1 

#1 

s = 0; al 
$finish; 


0 ； 

aO 


0 
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end 

initial begin 

$monitor($time,":\ts = %b\tal = %b\taO = %b\ty 

s, al, aO,y); 

$dumpf ile ( ff mux2xl__cmos . vcd ”）； 

$dumpvars; 

end 


endmodule 


[yamin@localhost cpu]$ iverilog mux2xl 一 cmos 一 test•v 
[yamin@localhost cpu]$ vvp a.out 


VCD info: dumpfile mux2xl 一 cmos•vcd opened for output. 


0 


s = 0 al = 0 aO = 0 y = 0 



s = 0 al = 0 aO = 1 y = 1 


2 

3 



al — 1 aO = 0 y = 0 
al = 1 aO = 1 y * = 1 


4 : 
5: 
6: 
7: 
8 : 

[yamin@localhost cpu]$ 


s = 
s = 
s = 
s = 
s = 


1 



0 


al = 0 3.0 = 0 y = 0 

al = 0 aO = 1 y = 0 

al = 1 aO =0 y = 1 

al=l aO = 1 y = 1 

al = 0 aO = 0 y = 0 


%b' 


2.4.2 逻辑门级的 VerilogHDL 

我们给岀两种逻辑门级的二选一多路器 电路： 一 种使用三态门（图 2.11( a )), 另 
一种使用普通的与或非门（图 2.11 ⑻)。所谓三态门，是指输出有三个 状态： 一个是 
0, 一个是1，还有一个是所谓高阻 （High Impedance ) 状态。高阻状态可以简单地理 
解为只有一条线在那儿浮空，没有任何逻辑门驱动它。图中的输入信号 s 为低电平 
时，三态门 bufifD 的输出等于输入信号 aO , 此时的三态门 bufifl 输出高阻。如果 s 为 
高电平， bufifD 输出高阻而 bufifl 的输出与输人信号 al 相同。 


bufifO 



bufifl 


(a) 多路选择器（三态门）电路 


aO 


al 

s 



sn 



aO^sn 


D 


al^s 



y 


(b) 多路选择器（与或非门）电路 


图 2.11 逻辑门级的多路选杼器电路 

以下的 Verilog HDL 代码实现三态门级的一位二选一多路器，其中 bufifD 和 
bufifl 是两个三 态门。 测试代码与 CMOS 晶体管开关级的测试代码类似，此处就不再 
列出了。 
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module mux2xl 一 3s (aO,al,s,y 〉； 

input s,aO,al; 
output y; 

bufifO bO (y,aO,s); 
bufifl bl (y,al,s); 
endmodule 

普通与或非门的实现代码如下所示，它与图 2.11( b ) 的电路完全等价。 

module mux2xl 一 gate (aO,al,s,y); 

input s,aO,al; 
output y; 
not iO (sn, s); 
and il (aO 一 sn,aO, sn); 
and i2 (al_s, al,s ); 
or i3 (y,aO_sn,al_s); 
endmodule 

2.4.3 数据流风格的 VerilogHDL 

与晶体管开关级和逻辑门级不同，数据流风格的 Verilog HDL 不指定任何特定 
的器件。它的主要特征是使用 assign 语句对变量赋值，有些类似于逻辑表达式的风 
格。赋值语句的特点是，等式右边的输入变量一旦发生变化，立即反映到等式左边 
的输出变量。使用 assign 语句时，对一个输出变量只能赋值一次。 

以下是两种数据流风格的 VerilogHDL 代码，实现一位二选一多路器 0 首先是逻 
辑表达式风格的 代码： 

module mux2xl_dataflowl (aO,al,s,y); 

input s f aO f al; 
output y; 

assign y = & aO | s & al; 

endmodule 

第二个版本使用类似于 C 语言的 if - else 问号形式的语句。问号表示要测试输入 
信号 s , 如果它为1,则把冒号前面的 al 赋给 y ; 否则，把胃号后面的 aO 赋给 y 。 该 
例好像具有功能描述风格，属于疑似病例，有待确诊。 

module mux2xl 一 dataflow2 (aO,al,s,y); 

input s,aO,al; 
output y; 

assign y = s? al : aO; 
endmodule 

图 2.12 示岀的是使用 Altera 公司的 Quartus II 软件对上述两种代码进行编译及逻 
辑综合后产生的 RTL 级别的逻辑图。第一个版本的代码产生与逻辑门级类似的逻辑 
图，而第二个版本产生的只是多路器的符号，它里面的内容是什么，我们无法从外 
面看到。注意我们把两个版本的代码合在一起了，用 yO 和 yl 区分两个输出。在实 
际的电路设计过程中，我们并不需要由 VerilogHDL 代码来生成逻辑图。 
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图 2.12 Quartus II 生成的数据流风格的 Verilog HDL 的电路图 




2.4.4 功能描述风格的 Verilog HDL 


功能（或行为）描述风格的 Verilog HDL 是 Verilog HDL 中层次最髙的描述方法， 
它的主要特点是靠“算法”实现电路的操作。对于不太熟悉或不太喜欢低层次硬件逻 
辑图的人来讲，功能描述风格的 Verilog HDL 是一种最佳选择。以下给出6个版本实 
现一位二选 一 多路器 0 虽说是6个版本，其实只有两类： always 和 function 。 

第一个版本使用 always 和 if-else 语句对输出变量赋值。如果没有 always 而直 
接使用 if-else 语句，就会出现语法错误。 always 后面括号中的是输入变 M ， 所有 
在 always 内部使用的输入变量都要在括号中列出。这是 Verilog HDL 1995 版本的规 
定， 2001 年新的版本只要写一个星号就行了。另外，在 always 内部被赋值的变量都 
要声明为 reg 类型，如果声明为 wire 类型，编译就会报错。尽管声明为 reg 类型，如 
果在 always 内部的算法对所有可能的情况都加以描述，最后产生的电路中不会包含 
任何寄存器。一旦有一种情况没考虑到，将会生成时序电路，即电路里面会有寄存 
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器。多路器是纯组合电路，不应包含任何寄存器。注意 always 内部不能使用 assign 。 

module mux2xl 一 behavioral—if—else (aO f al f s f y); 

input s,aO,al; 
output y; 

• reg y; // 9 y f cannot be a net 
always @ (s or aO or al) begin 

if (s) begin 

y = al; 

end else begin 

y = aO; 

end 

end 

endmodule 

第二个版本与上面的类似，只是不管三七二十一，先把输出变量都赋了值再 
说。这种做法一般能保证产生的是组合电路。 

module mux2xl 一 behavioral 一 if (aO,al,s,y); 

input s,aO,al; 
output y; 

reg y; // 9 y f cannot be a net 
always @ (s or aO or al) begin 
y = aO; • 

if (s) begin 

y = al; 

end 

end 

endmodule 

第三个版本还是使用 always 语句，但在 always 内部，我们使用了 case 语句。同 
样，所有的 case 如果都涉及了，生成的电路为组合电路，否则为时序电路。一撇左 
边的1表示是 一位； 右边的 b 表示用二进制格式给出变 M 的值。其他的 还有： d 表示 
十进制、 h 表示十六进制。 

module mux2xl 一 behavioral 一 case—all (aO,al,s,y); 

input s,aO,al; 
output y; 

reg y; // 9 cannot be a net 
always @ (s or aO or al) begin 

case (s) 

1 # bO: y = aO; 
l f bl: y = al; 
endcase 

end 

endmodule 
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与上面的版本类似，第四个版本也使用 case 语句，但用了 default 语句。所有没 
有涉及的 case, 都归类到 default 语句中，即它是默认的 case 。 这种做法也能保证产 
生的是组合电路。 

module mux2xl — behavioral — case—default (aO,al,s,y); 

input s,aO,al; 
output y; 

reg y; // 9 y 9 cannot be a net 
always @ (s or aO or al) begin 

case (s) 

l f bO: y = aO; 

default : y = al; // default 
endcase 

end 

endmodule 

第五个版本的代码有些不同。输出信号 y 用数据流风格的语句赋值，但所赋的 
值的内容由函数 sel 产生。注意函数 ftmcticm 代码的写法。它不用括号，也不声明输 
岀变量。实际上函数名 sel 就相当于输出变量。函数 ftmction 的内部变量名任意，但 
要与调用它的语句中的变量相对应。本例中在 function 的内部使用的是 case 语句。 

module mux2xl—behavioral 一 function—case—all (aO,al,s,y> ; 

input s,aO,al; 
output y; 

assign y = sel (aO,al f s); 
function sel; 

input a,b,c; // note the order 
case (c) 

bO: sel = a; 
l f bl: sel = b; 
endcase 
endfunction 
endmodule 

最后一个版本也是使用 ftinction, 但在 function 内部用了 if-else 语句。 

module mux2xl 一 behavioral_function — if—else (aO,al,s,y); 

input s f aO f al; 
output y; 

assign y = sel (aO,al,s); 
function sel; 

input a,b,c; // note the order 
if (c) sel = b; 
else sel = a; 
endfunction 
endmodule 
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总之，功能描述风格的代码可以用 always 或 function 实现。在 always 和 function 
内部，可以使用 case 语句和 if - else 语句。所有的6个版本均会输出与图 2.12 中的 y 2 
信号相同的电路图。以上的 VerilogHDL 代码实现的都是组合电路，我们将在 2.6 节 
介绍用 VerilogHDL 实现时序电路。在以后各章的叙述中，我们将给出更多的实例来 
说明如何用它来实现算法和设计 CPU 。 

2.5 常用的组合电路及其设计 

本节介绍常用的组合电路并给出它们的 Verilog HDL 代码。这些内容都是我们以 
后设计 CPU 时要用到的。 

2.5.1 多路选择器设计 

本小节介绍多路选择器的设计。虽然我们已经介绍过多路器的设计了，但那只 
是二选一，并且是一位的。以下是32位的二选一多路器的代码，其中 [31:0] 表示 a 0 
和 al 都是32位的输入。每一位都有自己的名字， 例如： a 0[31]、 a 0[15]、 a 0[0] 等。 
注意选择信号 s 只有一位，当它为1,选中 al 的所有32位，由同样是32位的输出 
信号 y 送出； 当 s 为0时，选中 a 0。 

module mux2x32 (a0,al,s,y 〉； 

input [31:0] a0,al; 
input s; 

output [31:0] y; 
assign y = s? al : aO; 

endmodule 

以下代码实现 32 位四选一多路器。这时需要两位选择 信号： 当 s = 00 时 ， y = 
a 0； s = 01 时 ， y = al ; s = 10 时 ， y = a 2； s = 11 时 ， y = a 3。 我们在本例中使 
用的是 ftmcticm ， 请读者用 always 语句或者嵌套的“？ ：” assign 语句实现它。 

module mux4x32 (a0,al,a2,a3,s,y) ; 

input [31:0] a0,al,a2,a3; 
input [1:0] s; 
output [31:0] y; 
function [31:0] select; 

input [31:0] a0,al,a2,a3; 
input [1:0] s; 
case (s) 

2 / bOO : select = aO; 

2 / bOl : select = al; 

2 f blO : select = a2; 

2 f bll: select = a3; 
endcase 

endfunction 
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assign y = select (aO,al ， a2,a3,s> ; 
endmodule 

图 2.13 是我们用 Quartus II 对以上代码生成的逻辑符号图。如果信号只有一位， 
用细线表示，否则用粗线。另外， Quartus II 对信号的命名方法与 VerilogHDL 略有 
不同，找找看，哪儿不同。如果不使用电路图输人，则没必要产生符号图。 


mux2x32 



a0[31..0] 

a1[31..0] 


y(3i..o] 



s 


instl 


mux4x32 


a0[31..0) 

a1[31..0] 

a2[31..0] 

a3{31..0] 

s[1..0] 


inst2 


y(31.0] 



(a) mux2x32 


(b) mux4x32 


图 2.13 Quartus II 产生的 32 位二选一多路器和四选一多路器的符号图 


2.5.2 译码器设计 

一个 m -2 m 译码器 ( Decoder ) 的功能如下所述。设有一位输入信号 ena 、 m 位输入 
信号 n [ m — 1:0】和 2 m 位输出信号 e [2 m - l :0】。 如果 ena = 1,则输出信号 e [ n ] = 1, 
其余为0;如果 ena = 0, 所有的输出信号为0。表 2.3 所示的是一个 3-8 译码器的真 
值表。 

表 2.3 3-8 译码器的真值表 



输 

入 





输 

出 




ena 

n[2] 

n[l] 

n[0] 

e[7] 

e[6] 

e[5] 

e[4] 

e[3] 

e[2] 

e[l] 

e[0] 

1 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

1 
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0 

0 
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0 

0 

0 

1 

0 

1 

0 

1 

0 

0 

0 

0 

0 

0 

1 

0 

0 

1 

0 

1 

1 

0 

0 

0 

0 

1 

0 

0 

0 

1 

1 

0 

0 

0 

0 

0 

1 

0 

0 

0 

0 

1 

1 

0 

1 

0 

0 

1 

0 

0 

0 

0 

0 

1 

1 

1 

0 

0 

1 

0 

0 
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由真值表，我们有如图 2.14 所示的逻辑电路图。这里省略了写逻辑表达式的步 
骤。注意，电路图没有连线，而是采用标注信号名的方法，这样画起图来变得简单 
且容易检査。另外还要注意，我们对输人输出信号的命名用了与 VerilogHDL 相同的 
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规则，即数字之间用冒号，而 QuartusII 用两个点，见图2.13。逻辑图不是重点，重 
点是 VerilogHDL 代码。 



图 2.14 3_8 译码器逻辑电路图 

以下的 Verilog HDL 代码实现 3-8 译码器电路。如果我们使用 case 语句，则要写 
很多行代码。我们这里用了类似于数组元素赋值的 方法： 先把所有的输出赋0,然后 
再只对其中的一位赋1或0。还有更简单的，见本章习题。 

module decoder3e (n,ena,e); 

input [2:0] n; 

input ena; 

output [7:0] e; 

reg [7:0] e; 

always @ (ena or n) begin 

e = 8’bO; 
e[n] = ena; 

end 

endmodule 

下面的测试代码中也用了我们还没有描述过的 语句： for 循环。循环变量 i 要声 
明为 integer , 即整数。你看，与 C 语言多么相似。 

'include n decoder3e•v" 
module decoder3e—test; 

reg [2:0] n; 
reg ena; 

wire [7:0] e; 
integer i; 

decoder3e dec3e (n f ena, e); 
initial begin 

#0 $display("time\tena\tn\te">; 

#0 ena = 1; n = 0; 

for (i = 1; i < 8; i = i + 1) begin 

#1 n = i; 

end 

#1 ena = 0; 
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#1 ena = 1; n = 0; 

#1 $finish; 

end 

initial begin 

$monitor ( 11 %ld\t%b\t%b\t%b", $time, ena, n f e); 
$dumpfile("decoder3e•vcd ”）； 

$dumpvars; 

end 

endmodule 


仿真结果如下，与表 2.3 所期待的输出相同，一看就知道是我想要的。 


[yamin@localhost 

cpu] $ 

iverilog 

[yamin@localhost 

cpu] $ 

vvp a.out 

VCD 

info : dumpfile decoder3e.vcd 

time 

ena 

n 

e 

0 

1 

000 

00000001 

1 

1 

001 

00000010 

2 

1 

010 

00000100 

3 

1 

Oil 

00001000 

4 

1 

100 

00010000 

5 

1 

101 

00100000 

6 

1 

110 

01000000 

7 

1 

111 

10000000 

8 

0 • 

111 

00000000 

9 

1 

000 

00000001 


[yamin@localhost cpu] $ 


2.5.3 32位移位器设计 


32位移位器对32位二进制数左移或右移，移位位数可在0〜31之间自由选 
择，右移时可选择逻辑右移（高位填 0) 或算术右移(高位符号扩展)。以下是3种移位 
操作的例子，它们分别对原始数据进行左移、逻辑右移和算术右移。 


原始 数据： 

左移8位： 

逻辑右移8位: 
算术右移8 位: 


1111 . 1111 . 0000 . 0000 . 0000 . 0000 . 1111.1111 

0000 . 0000 . 0000 . 0000 . 1111 . 1111 . 0000.0000 

0000 . 0000 . 1111 . 1111 . 0000 . 0000 . 0000.0000 

1111 . 1111 . 1111 . 1111 . 0000 . 0000 . 0000.0000 


图 2.15 所示的是32位左移移位器电路图。图中有5个32位二选一多路器。控 
制移位位数的输入信号 sa[4:0] 有5位。5位全为0时表示移0位，全为1时表示移 
31 位。即， sa[0] = 1 时移 1 位， sa[l] = 1 时移2位， sa[2] = 1 时移4位， sa[3] = 1 
时移8位， sa[4] = 1时移16位。图中的小小长方形是二选一多路器， sa 被用作多路 
器的选择信号，0选左1选右。注意看 sa 中每一位的厉害程度。 
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sa[4] 


sa[3] 


sa[2] 


sail ] 

sa[0] 
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图 2.15 32 位左移移位器电路图 


图 2.16 所不的是32位移位器的整体电路图。输入信号 right = 1时右移，否 
则左移；右移时，如果 arith = 1,符号扩展，否则零扩展。图中有5组二选一多 
路器，每组两个，左边一个控制左移还是右移，右边一个控制移还是不移。符号扩 
展由一个与门 实现： 当 arith =1时，扩展位与数据的最高位 dplj 相同； 否则扩展 
位为0。图中的器件 buf 是为了产生多个与输入信号相同的信号。 

以下是实现32位移位器的 Verilog HDL 代码，注意16位扩展位 e 的产生方法。 
另外，我们又有一个新的关键字 parameter ， 使用它定义一个16位的常数 z 。 

module shift 一 mux (d,sa, right, arith, sh); 

input [31:0] d; 
input [4:0] sa; 





input right,arith; 

output [31:0] sh; 

wire [31:0] t0,tl,t2,t3,t4,sl,s2,s3,s4; 

wire a = d[31] & arith; 
wire [15:0] e = {16{a} }; 
parameter z = 16 f b0; 

wire [31:0] sdl4 / sdr4,sdl3, sdr3, sdl2, sdr2, sdll, sdrl, sdlO, sdrO; 
assign sdl4 = {d[15:0]/z}; // shift left 16-bit 

assign sdr4 = {e,d[31:16]}; // shift right 16-bit 

mux2x32 m_right4 (sdl4,sdr4,right,t4); // left or right 

mux2x32 m 一 shift4 (d,,sa[4 】 ， s4); // not—shift or shift 

assign sdl3 = {s4[23:0],z[7:0]}; // shift left 8-bit 

assign sdr3 = {e[7:0] , s4[31: 8】 }; // shift right 8-bit 

mux2x32 m_right3 (sdl3,sdr3,right,t3); // left or right 

mux2x32 m_shift3 (s4,t3,sa[3],s3); // not—shift or shift 

assign sdl2 = {s3[27:0] f z[3:0]}; // shift left 4-bit 

assign sdr2 = {e[3:0],s3[31:4]}; // shift right 4-bit 

mux2x32 m—right2 (sdl2,sdr2,right,t2); // left or right 

mux2x32 m—shift2 (s3,t2,sa[2],s2); // not—shift or shift 

assign sdll = {s2[29:0] f z[l:0]}; // shift left 2-bit 

assign sdrl = {e[1:0] f s2[31:2]}; // shift right 2-bit 

mux2x32 m—rightl (sdll,sdrl,right, tl); // left or right 

mux2x32 m 一 shiftl (s2,tl,sa[1],si); // not—shift or shift 

assign sdlO = {si[30:0],z[0]}; // shift left 1-bit 

assign sdrO = {e[0 】 ， si[31:1]}; // shift right 1-bit 

mux2x32 m_right0 (sdlO,sdrO,right,t0>; // left or right 

mux2x32 m 一 shiftO (si,tO,sa[0],sh>; // not—shift or shift 

endmodule 

我们把以上的代码归为结构描述风格。测试代码和仿真结果如下所示。 

'include "shift—mux•v" 

'include "mux2x32•v" 
module shift_mux_test; 
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reg [31:0] d; 
reg [4:0] sa; 


reg right,arith; 

wire [31:0] sh; 

shift 一 mux sft (d,sa,right,arith,sh); 
initial begin 


right=0 
#1 right=l 
#1 right=l 
#1 right=0 
#1 $finish 

end 


arith=0; d=32 / hffOOOOff; sa=5 f h8 
arith=0; d=32 / hffOOOOff; sa=5 f h8 
arith=l; d=32 f hffOOOOff; sa=5 f h8 
arith=0; d=32 f hffOOOOff; sa=5 / h0 


initial begin 

$monitor ($time, " right=%b f, f right, " arith=%b n , 

arith, 11 d=%h",d, " sa=%h n ,sa,” sh=%h ,l f sh); 
$dumpf ile ("shift_mux.vcd"); 

$dumpvars; 

end 

endmodule 


[yamin@localhost cpu]$ iverilog shift 一 mux_test•v 
[yamin@localhost cpu]$ vvp a.out 

VCD info: dumpfile shift 一 mux.vcd opened for output. 

0 right=0 arith=0 d=ff0000ff sa=08 sh=0000ff00 

1 right=l arith=0 d=ff0000ff sa=08 sh=00ff0000 

2 right=l arith=l d=ffOOOOff sa=08 sh=ffff0000 

3 right=0 arith=0 d=ffOOOOff sa=00 sh=ffOOOOff 
[yamin@localhost cpu]$ 


可能有读者觉得以上代码太烦琐了。嗯，感觉很对。有简单的，下面的 就是: 

module shift (d,sa,right,arith,sh); 

input [31:0] d; 

input [4:0] sa; 

input right,arith; 

output [31:0] sh; 

reg [31:0] sh; 

always @* begin 

if (!right) begin // shift left 

sh = d << sa; 

end else if (!arith) begin // shift right logical 

sh = d >> sa; 

end else begin // shift right arithmetic 

sh = $signed(d) >>> sa; 

end 


end 

endmodule 
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这是一种功能描述风格的代码。注意 always 右面的条件，这种写法只有新的 
Verilog HDL 版本才支持。3个大于号连在一起用表示算术右移。 $ signed ( d ) 表示变量 
d 是一个带符号数。看过了以上实现移位器的两个版本，你是否觉得用结构描述和数 
据流风格的 Verilog HDL 代码设计电路像用汇编语言编写程序，而用功能描述风格的 
代码设计电路像用 C 语言编写程序？请回答“是”。 

以上讲述的内容全部属于组合电路。它们的特点是输出仅与当前输入有关。逻 
辑电路还有另外一种类型，而且是重要的类型，它就是时序电路。 

2.6 时序电路的设计方法 

时序电路 (Sequential Logic Circuits ) 不仅与当前输人有关，而且与“历史”有 
关。而历史与以前的输人有关。举一个例子，假如你想用一大堆硬币从自动售货机 
买饮料。如果自动售货机只知道你“这次”放入了多少钱而忘记了你已经放人的钱， 
那么第一，你 亏了； 第二，也许你买不到饮料，尽管你很渴并有很多 零钱； 第三， 
你会埋怨设计这台自动售货机的人水平不是一般的低，而是相 当低； 第四，不知道 
除了埋怨你还将做些什么。 

当然不会有这种情况发生，作者只是举个例子。要想知道“历史”，必要的条件 
是会“记忆”。电路能记忆？能！存储器就是会记忆的器件。存储器的原理我们放在 
以后再讲，这里先说说两种能记忆的 电路： D 锁存器和 D 触发器。 

2.6.1 D 锁存器 

D 锁存器 （D Latch ) 是“电平触发”的记忆电路（见图2.17)。它的基本记忆单元 
是 “ RS 锁存器”，如图 2.17( a ) 所示。 R 代表 Reset , 低电平 有效； S 代表 Set , 也是 
低电平有效。与组合电路相比，记忆单元的特点是信号有反馈。你试着把 RS 锁存 
器中下面的与非门使劲地往左拉拉看，你会发现 q 的信号又折返回来了。当 q = 0 
时，它“封锁”了 I •输入端。由于电路是对称的， qn 也能封锁 s 。 而组合电路是从左 
至右一方通行的单行道，谁也封锁不了谁。 



( a ) RS 锁存器 ( b ) D 锁存器 


图 2.17 D 锁存器电路图 

当!" = 0( 有效）且 s = 1 (无效）时，电路“复位”，或称“清零”，输出 q 为 
0, qn (可以理解为 q 的非）为1;当 r = l 且 s = 0 时，电路“置1”，输出 q 为1 ， qn 
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为0;当 r = 1且 s = 1时，电路保持原来的状态 不变 ； r = 0且 s = 0?想要干什么 
呢？这样干也不是不可以，只是 q 和 qn 都输出1，意义不明确。 

好在 D 锁存器（图 2.17( b )) 不会出现这种意义不明确的举动。当 c = 1 (高电平) 
时， d 被锁存，由 q 送出； 当 c = 0( 低电平)时， d 被封锁， q 的输出不受 d 的影响。 
注意，当 c 为高电平时， q “跟随 ” d 的变化而变化，这一点与 D 触发器不同。 

以下是 D 锁存器的 VerilogHDL 代码。注意，以下的两个模块可放在一个文件 
中，文件名为 dJatch . v 。 在一个文件中可以写多个模块，其中有一个是主模块。文件 
名应使用主模块名。本例中 dJatch 是主模块，它调用 rs _ latch 模块。 

module d 一 latch (c,d,q,qn); 

input c, d; 
output q,qn; 
wire r,s; 

nand nandl (s, d,c); 
nand nand2 (r,~d, c); 
rs 一 latch rslatch (s,r,q,qn); 
endmodule 


module rs_latch (s,r,q,qn); 

input s,r; 
output q,qn; 
nand nandl (q,s,qn); 
nand nand2 (qn f q); 
endmodule 


图 2.18 所示的是 D 锁存器代码在 Quartus II 上的仿真结果。从图中我们看出， 
当 c 为高电平时 ， q “跟随” d 的变化而 变化； c 为低电平时， q 不变。注意开始处的 
输出： 虽然 q 不变，但 q 原来是0还是1并不知道。还是波形图看起来比较直观。由 
于有了 Quartus II ，作者就不怎么用 gtkwave f 。其中的一个主要原因是使用 Quartus 
II 时不用写测试代码了，直接编辑输入信号的波形就行。 


d latch.vwf 


0回® 


Master Time Bar 


1.0 us jJjj Pointer 301.11 n$ Interval: -698 89 ns Start: 


End 


l#0 


^2 


炒 3 


〕 ps 


1000 ns 


200.0 


300.0 ns 


400.0 ns 


500.0 ns 




^ 888888888 ^: 




n 


n 


1 


阁 2.18 D 锁存器仿真结果 
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2.6.2 D 触发器 

D 触发器 (D Flip Flop ) 是“时钟上升沿触发”的记忆电路，不会有“跟随’’现象 
发生。 D 触发器有“学术界”和“工业界”两个版本，以下分别介绍。 

dJatch d .latch 



图 2.19 学术界版本的 D 触发器电路图 

先讲学术界的版本，见图2.19。很简单，使用两个非门和两个 D 锁存器，左边 
的叫“主锁存器”，右边的叫“从锁存器”。时钟 elk 的低电平（经过一个非门变成高 
电平）把 d 的数据“锁存”进主锁存器，输出为 q 0 ; 时钟的高电平再把 qO “锁存” 
进从锁存器。这样，主锁存器在时钟的低电平期间对 d 的跟随就不会影响到最终的 
输出 q 。 虽然在时钟的高电平期间 q 跟随 qO, 但这时的 qO 不会发生变化了。因为输 
出信号 q 的变化发生在时钟信号电平从低到高的瞬间，所以 D 触发器是“时钟上升 
沿触发”。该电路的 VerilogHDL 代码如下。它调用了两个 D 锁存器 dJatch 。 

module d_f lip_f lop (elk, d, q, qn}; 

input elk,d; 
output q f qn; 
wire qO,qnO; 

d」atch dlatchl 「 elk, d, qO, qnO); 
d_latch dlatch2 ( elk,qO,q,qn); 
endmodule 


仿真结果如图 2.20 所示。输入信号的波形与图 2.18 所示的对 D 锁存器进行仿真 
时的输入信号的波形完全相同，但二者的输出大不相同。 


|HF — • ^ “ •一 ■ . • . ”… - - — 

Q. djhpjlop vwf 

mwpnB—aai 


2.20 学术界版本的 D 触发器仿真结果 











50 


第 2 章逻辑电路及 VerilogHDL 简介 


工业界版本的 D 触发器如图 2.21 所示，其中的 pm 和 elm 分别为低电平有效的 
置1和清零端。仿真结果如图 2.22 所示，注意看时钟 ( elk ) 上升沿处 Q 的输出。 









图 2.22 工业界版本的 D 触发器仿真结果 

D 触发器可以用功能描述风格的 Verilog HDL 来设计。以下的两个版本分别是带 
有“同步”清零端的 D 触发器和带有“异步”清零端的 D 触发器。同步是指在时钟 
h 升沿处检查清零信号是否 有效； 异步是指清零端与时钟无关，只要有效就清零。 
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带有同步清零端的 D 触发器 VerilogHDL 代码如下，其中 posedge 是关键字，代 
表上升沿。 

module d—ff (d,elk,clrn,q) ; // dff with synchronous reset. 

input d,elk/clrn; 
output q; 
reg q; 

always @ (posedge elk) begin 

if (clrn == 0) q <= 0; 
else q <= d; 

end 

endmodule 

带有异步清零端的 D 触发器的 Verilog HDL 代码如下，其中 negedge 是关键字， 
代表下降沿。 

module dff (d,elk,clrn, q) ; // dff with asynchronous reset. 

input d,elk,clrn; 
output q; 
reg q; 

always @ (posedge elk or negedge clrn) begin 

if (clrn == 0) q <= 0; 

else q <= d; • 

end 

endmodule 


图 2.23 所示的是带有使能端 e ( Enable ) 的 D 触发器 dffe 。 我们使用了一个二选 
一多路器。当 e = l 时，它与普通的 D 触发器 相同； 当 e = 0 时，禁止新的数据的 
写入，保持原来的状态不变。实际上是把原来 q 的数据经多路器又往 D 触发器中写 
了一次。有人把 e 端与输人信号 elk 相与后再接到 D 触发器的时钟端。这是一种很不 
好的设计，由于 e 由其他电路产生，可能会有“毛刺”，导致向 D 触发器中误写入。 
还有就是由于 e 的原因造成上升沿不同程度的延迟，可能导致同步电路锁存错误。 



( a ) dffe 的逻辑电路图 （ b ) dffe 的符号 


图 2.23 带有使能端的 D 触发器 dffe 电路图 


异步清零再加上使能端 e 的 D 触发器 ( dffe ) 的 Verilog HDL 代码如下。 
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module dffe (d,elk,clrn,e,q} ; 

input d; 

input clk f cirri/ e; 
output q; 
reg q; 

always @ (negedge cirri or posedge elk) 

if (clrn == 0) q <= 0; 
else if (e) q <= d; 
endmodule 


2.6.3 状态转移图及时序电路设计 

以上介绍了 D 锁存器和 D 触发器，它们只是单纯的记忆器件。现在我们通过一 
个例子说明如何设计时序电路。 

假设我们要设计一个六进制的计数器。我们有一个输入信号 u 。 当1时，计 
数次序为0,1，2,3,4,5,0，1，2,…;当 u = 0 时，计数次序为5,4,3,2,1，0,5,4,3, ••• 
另外，计数器的值要用七段显示器显示出来，见图2.24。 

I 3 DCJG 

til 30 0 


图 2.24 六进制的计数器符号及七段显示器 

很明显，计数器有6个状态。我们要用 D 触发器来表示或区分出这6个状态。 
问题是要用多少个 D 触发器才够^ 6个？不需要那么多，3个就行。由于3个卩触 
发器能够存储3位二进制数，而3位二进制数能表示2 3 = 8个状态，它们分别是 
000, 001，010, 011，100, 101，110, 111。我们只有6个状态，还富余两个状态。一般来 
讲， N 个状态需要 「 log 2 N ] 个 D 触发器，其中「1是向上取整数的意思。 

图 2.25 所示是六进制计数器的总体电路图，其中左半部分是3个 D 触发器，用 
于记录计数器当前的状态。右半部分是组合逻辑，生成下一状态信号并产生七段显 
示器的控制信号。 



ns [2:0] 


dfT 3 


elm 

elk 



q [2:0] 


u 





a 

b 

c 

d 


g 


图 2.25 六进制计数器的总体电路阁 
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现在，我们要画出“状态转移图”。首先给每个状态起一个名字，假设我们分别 
用 SO 〜 S 5 表示计数器的值0〜5。则我们可以画出如图 2.26 所示的状态转移图。 



图 2.26 六进制计数器的状态转移图 


有了状态转移图，我们可以制作一个状态转移表。在制表之前，我们先给每个 
状态赋一个3位二进制的值。因为3位二进制数总共有8个不同的值，我们可以从中 
任选6个，分别赋给6个状态。注意，给状态赋值可以任意，只要保证每个状态的 
值是唯一的就行了。表 2.4 所示的仅是一种可能的赋值方案。 


表 2.4 给6个状态陚不同3位二进制数值的一种方案 


状态 

so 

S 1 

S 2 

S 3 

S 4 

S 5 

二进制值 

000 

001 

010 

011 

100 

參 

101 


D 触发器的输岀信号是“当前状态”，用 q [2..0] 表示它。在时钟的上升沿处， 
“下一状态”要被写入到 D 触发器中。我们用 ns [2..0] 表示下一状态。表 2.5 是六进制 
计数器的状态转移表，通过它求出表示下一状态的 ns [2..0] 每一位的逻辑表达式。 

表 2.5 六进制计數器的状态转移表 


当前状态 

输入 

下一状态 


q[2] 

q[l] 

q[0] 

U 


ns[2] ns[l] 

ns[0] 

SO 

mm 



1 

wm 

■ 

HDH 

mm 


V/ 

V/ 

mm 

S5 

■ 

HHDHI 


SI 

mm 

wmm 

1 

l 

S2 

■ 





mm 

SO 

■ 

HIKBI 


S2 

mm 

1 

mm 

l 

S3 

■ 

IBHDH 


V/ 

i 


mam 

mm 

■ 



S3 

mm 

■ 

■ 

l 

S4 

■ 



mm 

mm 

S2 

■ 



S4 

l 



l 

S5 

■ 

HHQH 



vr 

mm 

S3 

■ 



S5 

黌 

l 

mm 

1 

l 

SO 

■ 



WM 


S4 

■ 

HIHH 

mm 
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ns [2 】 


ns[l 】 


ns[0] 


图 2.27 下一状态变量的卡诺图化简 


求下一状态的每一位的逻辑表达式，可以使用如图 2.27 所示的卡诺图。从图中 
我们看出只有 ns [0] 可以化简。我们写出 ns 每一位的表达式如下。 


ns [0] 
ns [ l ] 
ns [2] 




q [2] q [0] + q [ l ] q [0】 

qMqHIqlO] u-hql2jq[l] q[0j u -h q[2] q[l] q[0] u + q[2] q[l]qIoIu 
qM qp] qM U + q[2l q[l] q[0] u -|- q[2] qp] q|0] u + q[2] q[T] q[0] G 


q[2 : 0]| g f e d c b a 


000 
00 1 
0 10 
Oil 
1 00 
10 1 


1 oooooo 
1 1 1 1 00 1 
0 100100 
0 1 1 0000 
00 1 1 00 1 
00 1 00 1 0 




q[0]0 


~ I ~ I X I 1 


q[2j 0 0 11 

q[lj 0 110 


q[o] o 


~\ ~I X I 1 
1 I X I 


[?] 


0 0 
0 1 


q[0] 0 ~~pi~ 
i 


q[o] o 




q2] 0 0 
q 1] 0 1 


q[0】0 


~1 ~I x I 1 

TTTT 


q[o] o 


I 1 I X I~ 
1 I 1 1 X 1 


[ 2 ] 

i 4 

l 

9 < 


0 0 
0 1 


q[o] o 


图 2.28 输出信号的卡诺图化简 


同样，我们可以用卡诺图化简七段显示器的7个控制信号，如图 2.28 所示（假设 
低电平点亮 LED )。 我们得到如下的输出信号的逻辑表达式。 


q [2] q [ l ] q [0] + q [2] q [0] 

q [2] q [0] 

q [ i ] qM 




q [2] q [0] + q [0] 

q [>] qM + q [ 2 jq [ o ] 


0 0 11 q[2] 




I 


I 


DDE 

DDE 


I 


I 
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00s 




I 


00s 

D3 
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q[2] q[l] 


图 2.29 


图 2.32 是六进制计数器的详细电路，图 2.33 是仿真结果。 


S dff3 bdf 


13叵 I ® 


d[2.0) 


q[ 0 ] 



q[ 2 l>] 


inst6 


六进制计数器中的 3 位状态寄存器电路阁 


S outputjunct ion bd< I 

BHHSS 


0 回® 


qn[ 


qn(1 】 


_ r—L 

mstl 

q[2] ^AND2 

■ 


qn[0] I 


Mnst2 
q(2] ^AND2 


qn(2.0 



qn[2] AND2 


qn[i) 


qn【0 



insl6 




m 

I |OR2 

; M ~^ 


i HnstlO 


六进制计数器中的输出信号产生电路 
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进制计数器中的下一状态产生电路 


^ Qn[1] 


_ i 



' 

qn|2) 

，冒 w ^ 

AND4 




2.32 六进制计数器的总体电路 
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阁 2.33 六进制计数器的仿真结果 


我们讲述计数器设计的详细过程的目的不是仅为了设计一个计数器，而是让读 

者掌握设计时序电路的方法。其实，如果只想设计一个带有七段显示的六进制的计 
数器，很简单，看下面的 counter 6. v 。 

module counter 6 (u f elk, clrn, q, a, fc>, c, d, e, f, g); 

input U/clk f clrn; 

output [2:0] q; 

output a,b,c,d,e,f,g; 

reg [2:0] q; 

always @ (posedge elk or negedge clrn) begin 

if (clrn == 0) q <= 0; 

else if (u) q <= (q + 1) % 6; 

else if (q == 0) q <= 5; 

else q <= (q - 1) % 6; 

end 

assign {g,f,e,d,c,b,a} = seg7(q); 
function [6:0] seg7; 
input [2:0] q; 
case (q) 

3 f dO : seg7 = 7^1000000; . 

3 f dl : seg7 = 7 f bllll001; 

3 f d2 : seg7 = 7 f b0100100; 
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3 f d3 : seg7 = 7 f bOHOOOO; 

3 f d4 : seg7 = 7 f bOOHOOl; 

3 f d5 : seg7 = bOOlOOlO; 

default : seg7 = 7 f bill1111; // light off 
endcase 
endfunction 
endmodule 

一般的时序电路的结构如图 2.34 所示。时序电路的实现方式有 Mealy Model 和 
Moore Model 0 它们之间的区别看图就知道了。有关时序电路设计的内容，在介绍多 
周期 CPU 的 Verilog HDL 实现方法时，我们还要详细讲解。 



(b) Moore Model 


图 2.34 时序电路示意图 

2.7 习题 

1. 下载并安装 Icarus Verilog (或其他的 Verilog HDL 编译及仿真器)。 

2. 参照图 2.10( a )， 试写出 cmoscmos.v 的 Verilog HDL 代码。 

3. 试设计一个3输入的 CMOS 与非门和一个3输入的 CMOS 或非门。 

4. 试只使用或非门设计一个一位二选一多路器。 

5. 试用多个32位二选一多路器 mux 2 x 32 设计一个32位的八选一多路器 mux 8 x 32 0 

6. 试分别用结构描述、数据流描述和功能描述三种风格写出带有使能端的 3-8 译 
码器的 Verilog HDL 代码。 提示： 功能描述风格的语句可用 e = ena << n 。 





2.7 习题 
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7. 在中断控制电路中通常要用到优先级编码器 （Priority Encoder )， 指出是否有中 
断以及中断的优先级（向量)。设计一个 8-3 优先级编码器。 提示： 可使用 casex 
语句。不知道什么是优先级编码器和 casex ? 到网上去查。 

8. 你想只用或非门设计一个 D 锁存器吗？如果想，试试看。 

9. 用 Verilog HDL 设计一个异步清零再加上使能端 e 的32位 D 触发器 ( dffe 32)。 

10. 试读懂下面的代码，说明它的功能并在 FPGA 板上运行。 

module minute_second (elk, ml, mO, si, sO, dots); 

input elk; // 50MHz 

output [6:0] ml, mO; // munite 7-seg 
output [6:0] si, sO; // second 7-seg 
output [3:0] dots; // 4 decimal points 

reg sec—elk = 1; // second clock 
reg [24:0] elk 一 ent = 0; 
always @ (posedge elk) begin 

if (clk_cnt == 25 f d24999999) begin 

elk 一 ent <= 0; 
sec elk <= 'sec elk; 
end else begin 

elk ent <= elk ent + 25 f dl; 

end 

end 

reg [2:0] mini = 0, seel = 0; 
reg [3:0] minO = 0, secO = 0; 
always @ (posedge sec 一 elk) begin 

if (secO == 4 9 d9) begin 

secO <= 0; 

if (seel == 3^ d5) begin 

seel <= 0; 

if (minO == 4 f d9) begin 
minO <= 0; 

if (mini == 3 / d5) begin 
mini <= 0; 
end else begin 

mini <= mini + 3 f dl; 

end 

end else begin 

minO <= minO + 4 f dl; 

end 

end else begin 

seel <= seel + 3 f dl; 

end 

end else begin 
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secO <= secO + 4'dl; 

end 

end 

// 0 

// 5 1 

// 6 
"4 2 

// 3 

function [6:0] seg7; 

input [3:0] q; 


case (q) 


4 # d0 

seg7 = 7’bl000000 

4 f dl 

seg7 = 7 f bllllOOl 

4 # d2 

seg7 = 7 f b0100100 

4 f d3 

seg7 = 7^0110000 

4^4 

seg7 = 7^0011001 

4 7 d5 

seg7 = 740010010 

4 # d6 

seg7 = 7^0000010 

4 f d7 

seg7 = 7^1111000 

4 f d8 

seg7 = 7 f bOOOOOOO 

4 f d9 

seg7 = 7 f b0010000 


default : seg7 = l 9 blllllll; // light off 
endcase 
endfunction 

assign sO = seg7(sec0); 
assign si = seg7({bO,seel}); 
assign mO = seg7(minO); 
assign ml = seg7({1’bO,mini}); 
assign dots = 4 f blOll; 
endmodule 


11. 试设计一个自动售货机的时序控制电路，条件自己想、自己设。 





第 3 章计算机算法及其 Verilog HDL 实现 

耆 

本章讨论二进制整数及其加减乘除和开方运算的一般算法以及高速算法，并给 
出所有算法的 Verilog HDL 代码。这些算法是我们设计 CPU 时必须要用到的。 

3.1 二进制整数 

人类已经非常习惯了使用十进制数，对十进制数的十个符号、即阿拉伯数字 
0123456789熟悉得不能再熟悉了。但为什么是十进制而不是其他进制？是因为人类 
有十个手指头？不管怎样，发明这十个符号的人是很伟大的。 

计算机中所有的信息，包括指令和数据，都是用二进制数表示的。一位二进制 
数只有两种可能的值： 0和1 (注意这里的0和1借用了阿拉伯数字中的两个符号)。 
比如1010就是一个4位二进制数。 

首先提一个 问题： 假设我们有一个32位的二进制数 

00110011110111100000000100000000 

它到底表示的是什么？正确答案是“不知道”。为什么呢？因为该二进制数的具体 
含义取决于它在什么场合下被使用。如果它被 MIPS CPU 当做指令来执行，则它 
是一条立即数加法指令 addi r 30, r 30, 256。为什么它是这条指令以及该指令完成什 
么操作等问题，我们将在第4章中讲述。如果它被 CPU 当做一个整数来运算，则 
它的整数值的大小等于870 187264。如果它被浮点部件 FPU 当做一个浮点数来运 
算，则它的值的大小等于 +2 _24 X (1 + 2 _1 + 2 _3 + 2 -4 + 2 _5 + 2 _6 + 2 -15 )= 
+0.000000 103378624771721661090850830078125 0 当然，它也可能是图像或音乐中 

的数据，或者互联网的 1 P 地址，或者其他别的什么的。 

不知大家有没有发现32位二进制数写起来太长、太不方便了？解决这个问题的 
办法是用十六进制数来表示。我们把二进制数4位一组4位一组地分开，每一组用 
一个字符来表示。因为4位二进制数有2 4 = 16种组合，所以要使用16个不同的符 
号来区分它们。这16个符号为0〜9和 a 〜 f ， 它们与4位二进制的16种组合的对 
应关系在表 3.1 中给出。 


表 3.1 卜六进制数与二进制数的对应关系 


二进制 

十六进制 

二进制 

十六进制 

二进制 

十六进制 

二进制 

十六进制 

0000 

0 

0100 

4 

1000 

8 

1100 

C 

0001 

1 

0101 

5 

1001 

9 

1101 

d 

0010 

2 

0110 

6 

1010 

a 

1110 

e 

0011 

3 

0111 7 

1011 

b 

1111 

f 


有了十六进制的表示方法，上面的32位二进制数可以写成 
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001 L 001 L 1101-1110—0000—0001 • OOOO - OOOO2 = 33 de 0100 i 6 

十六进制数与二进制数之间并没有本质的区别，只是表示方法不同而已。如 
果要把二进制数用十进制数来表示，问题就没那么简单了。问题不简单的意思有两 
个， 一 个是要确定该二进制数是什么表示方法，另一个是转换起来也比较麻烦。 

以下我们只介绍两种常用的二进制 整数： （1) 无符号二进制整数，也就是绝对 
值； （2) 带符号二进制整数，能表示正数，也能表示负数。 

3.1.1 无符号二进制整数 

设有 n 位二进制数 bnqbny . hbo , 其中 b , (i = 0， l，...，n — 2， n — 1) 的值 
为0或1。如果我们用它来表一个无符号数，它的值为 

b n _ ib n _ 2**-bi b 0 = b n _ ix 2 n - 1 + b n _ 2 x 2 n - 2 + ••• + b 1 x 2 1 + b 0 x 2° 

图 3.1 所示的是 n = 16 的例子。 


2 15 

2 14 

2 13 

•2 12 

2 11 

2io 

2 9 

2 8 

2 7 

2 6 

2 5 

2 4 

2 3 

2 2 

2 1 

2 ° 









D 

■ 

Q 


■ 

■ 

D 

■ 


图 3.1 16 位无符号数 

当 n 位二进制数的所有位均为1时，其值为_2 4 = 2"—1。这是 n 位二进制数 

所能表示的最大值。例如16位二进制数能表示大的无符号数为65 535。笔者建 
议大家至少记住 2 G 〜2 16 的十进制值。以下是32位无符号数所对应的十进 制值： 


0000 0000 
0000 0000 
0000 0000 


0000 0000 
0000 0000 
0000 0000 


0000 0000 
0000 0000 
0000 0000 


0000 0000 = 0 10 
0000 0001 = 1 10 
0000 0010 = 2 10 


1111 1111 1111 1111 
1111 1111 1111 1111 
1111 1111 1111 1111 


1111 1111 
1111 1111 
1111 1111 


1111 1101 = 

1111 1110 = 

1111 1111 = 


4 294 967 29310 
4 294 967294 10 
4 294 967 295x0 


3.1.2 补码表示的带符号二进制整数 


如果我们有一个负数，如何用二进制数来表示它？负数有很多种表示方法，以 
下3种是比较常用的方法。 

1) 符号-绝 对值： 最高位是符号位 (0 表示正、1表示负)，其余各位为绝对值。 

2) 移码： 从绝对值中减去一个固定的值。例如8位时减127、11位时减1023。 

3) 补码： 最高位为负值，其余各位为正值（与无符号数计算方法相同)。 



3.2 加减法算法及 Verilog HDL 实现 
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本小节重点介绍补码表示方法。设有 n 位二进制数•••!)々()，其中 b , 
(1 = 0，1，...，11一2，11一1)的值为0或1。补码表示的带符号数的值为 

b n _ ib n _2 • •. bi bo = — b n _i x 2 n - 1 + b n 一 2 x 2 n_2 + • • • + bi X 2 1 + bo X 2° 

注意上式中等号右边 b n — 前面的负号。图 3.2 所示的是 n = 16的例子。 


2 15 

2 14 

2 13 

2 12 

2 n 

2】o 

2 9 

2 8 

2 7 

2 6 

2 5 

2 4 

2 3 

2 2 

2 1 

2° 

矚 







b 8 

b 7 

b 6 

b 5 




■ 



阁 3.2 16位补码表示的带符号数 


如果最高位为1，该二进制数一定是 负数： 不管其余各位如何“正”，也不会大 
过最高位的绝对值。以下是32位补码表示的带符号数所对应的十进 制值： 


0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 


0000 = 
0001 = 


。10 

lio 


0111 1111 1111 
0111 1111 1111 
1000 0000 0000 
1000 0000 0000 


1111 

1111 

0000 

0000 


1111 

1111 

0000 

0000 


1111 

1111 

0000 

0000 


1111 

1111 

0000 

0000 


1110 = 2 147 483 646 10 

1111 = 2 147 483 647 10 

0000 = -2 147 483 648 10 
0001 = 一 1 147 483 647 10 


1111 1111 1111 1111 1111 1111 1111 1110 = - 2 10 
1111 1111 1111 1111 1111 1111 1111 1111 = - 1 10 

补码表示方法所能表示的数值为 一 2"- 1 〜 2"- 1 — 1 ， 其中 n 为二进制位数。例 
如，16位二进制数可以表示一32 768〜+32 767。表 3.2 列出了 4位二进制数在不同 
的表示方法下的十进制数值。你看，同是一个二进制数，在不同的表示方法下，有 
不同的意义。补码表示方法有一个 好处： 做加减法运算时与无符号数相同。这一点 
我们将在 3.2 节讨论。另外，补码的全称是 “2的补码” (2 ’s Complement )。 为什么这 
样称呼，我们也在32节讨论。 


3.2 加减法算法及 Verilog HDL 实现 


本节讨论二进制数的加减法电路的 Verilog HDL 实现以及补码表示的带符号数与 
无符号数之间的关系。先行进位的高速加法器的设计也在本节给出。 

3.2.1 加法器和减法器设计 

为了便于理解，我们以无符号数为例讨论二进制数的加法运算。首先考虑一位 
二进制数加一位二进 制数： 0 + 0 = 0, 0+1 = 1，1+0=1，1 + 1= 0 (进位位 
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表 3.2 4 位二进制数在不同的表示方法下的十进制数值 


二进制数 

无符号数 

补码表不 

符号-绝对值 

移码 ( 偏移值 7) 

0000 


■HH 


IHIDHI 

0001 

!■■■■ 




0010 

HIEHH 









0100 



+4 


0101 


ibesihi 


-2 

0110 





0111 

bhdhi 




1000 

wmam 




1001 





1010 

10 




1011 





1100 

12 




1101 

13 

-3 


BSraBl 

1110 

14 



+7 

1111 

15 

HBHH 

-7 



为 1 )。 只完成两个一位二进制数相加的电路称为半加器 （ Half-Adder )。 有半加器就有 
全加器 (Full-Adder )。 全加器考虑低位来的进位。 


图 3.3 是两个4位二进制数相加的情况，进位位用小号字体标出。与十进制数相 


加类似，我们从最低位开始计算：1 



0( 进位位为 1); 计算下一位时，我们不 


仅要对两个一位二进制数相加，而且也要加上从低位来的进位：1 




(进 


位位为1)。我们用信号 a 和 b 表示原来的两个一位二进制数、 ci 表示从低位来的进 
位、 s 表示相加的一位结果 （和 ) 、 co 表示相加时产生的进位。 



0 1 (a) 1 

用变量表示 +00 Cb) 1 

- > 1 ©Hd 

1 0 (s) 0 


阁 3.3 4 位二进制数相加 


表 3.3 是全加器的真值表，应该不难理解。有了真值表，问题就变得简单 了：写 
出输出信号的逻辑表达式、根据表达式画出逻辑图再做功能仿真。输岀信号的逻辑 
表达式 如下。 

s = abci + abci + aSci + abci 
co = a b + a ci + b ci 
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表 3.3 全加器真值表 


输入信号 

输出信号 

注释 

a 

b 

ci 

CO 

s 

0 

0 

0 

0 

0 

0 + 0 + 0=00 

0 

0 

1 

0 

1 

0 + 0 + 1=01 

0 

1 

0 

0 

1 

0 + 1 + 0=01 

0 

1 

1 

1 

0 

0 + 1 + 1=10 

1 

0 

0 

0 

1 

1 + 0 + 0=01 

1 

0 

1 

1 

o 

1 + 0 + 1=10 

1 

1 

0 

1 

0 

1 + 1 + 0=10 

1 

1 

1 

1 

1 

1 + 1 + 1=11 


全加器的电路图见图3.4。画电路图时，建议大家^董用名 f 来标# 逻辑门的 
输入输出信号线，这样检查起来比较方便。由于 s = 5 Eci + 5 b 5 + aSa + abci = 
a ㊉ b ㊉ ci , 我们也可以用异或门产生输出信号 s (图3.5)。 


a 

b 

ci 



罔 3.4 全加器逻辑电路图 


s 

C 0 



图 3.5 全加器逻辑电路图（使用异或门) 


我们给出全加器三种风格的 Verilog HDL 代码。第一种逻辑门级风格的代码与逻 
辑图（图 3.5) 基本相同，只是我们在代码中使用了 3输入的异或门。 

module fa—structural (a,b,ci,s,co) ; // structural style 

input a f b f ci; 
output s,co; 
wire ab, be, ca; 
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xor (s,a,b,ci); 
and (ab,a,b); 
and (be,b,ci); 
and <ca,ci,a); 
or (co f ab f bc f ca); 
endmodule 

第二种逻辑表达式风格的代码如下所示。注意逻辑表达式中的与、或和异或操 
作在 Verilog HDL 代码中分别用&、丨和 A 表示。该代码也是我们在以后的叙述经常 
要用到的代码，因此我们使用了比较简单的模 块名 ： addlo 

module addl (a,b,ci,s,co); // dataflow style 

input a,b, ci; 

output s,co; 

assign s = a " b " ci; 

assign co = (a & b) | (b & ci) | (ci & a); 
endmodule 

如果你不想使用这种逻辑表达式风格的描述，第三种功能描述风格的代码将会 
满足你的愿望，其中 { co ， s } 表示的是两位二进制数。在以后的叙述中，我们基本上 
使用第二种和第三种风格的代码，不用或尽量少用第一种风格的代码。 

module fa 一 behavioral (a, b, ci, s, co) ; // behavioral style 

input a,b,ci; 
output s, co; 

assign {co,s} = a + b + ci; 
endmodule 

图 3.6 是全加器逻辑电路的仿真结果。由于以上三段代码实现相同的功能，它们 
的仿真结果当然也相同。 



阁 3.6 全加器逻辑电路的仿真结果 


有了一位全加器，我们可以着手进行多位二进制数加法器的设计工作了。图 3.7 
是一个4位加法器，它使用了4个全加器，低位的进位输出连接到高位的进位输入。 

以下是4位加法器的 Verilog HDL 代码，实现图 3.7 中的电路。这里我们调用了 
全加器 addl 模块。一个3位的中间变量 emit 对应第0到第2位的进位输出。 


module add4 (a,b,ci,s,co) ; 

input [3:0] a,b; 
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0 111 (7) 0 111 

+ 10 11 ( 11 ) +10 11 

00 1 0 ( 2 ) 00 1 0 


在补码表示当中，由一个数求 f 的负数的算法 如下： 首先对该数各位取反，然 
后再把取反后的数加1。 即：一 b = 6 + 1。 例如： 


0 111 

(+7) 

100 1 

(-7) 

1000 

(取反) 

0 110 

(取反) 

+ 000 1 

(加 1) 

+ 000 1 

(加 1) 

1 00 1 

(-7) 

0 111 

(+7) 


在上例中，我们称1001是0111的 补码； 同样，0111是1001的补码，即互为补 
码。此处的补码的全称是 “2的补码”。为什么这样称呼，理由如下。假定在最高位 
的右面有一个小数点存在，则一个数的补码可以从2减去这个数得到，或者说 ，一 
个数加上它的补码等于2: 


a[3] b[3] a[2] b[2] a[l] b[l] a[0] b[0] 

參 

co 

s[3] s[2] s[l] s[0] 

图 3.7 4 位二进制数逐位进位加法器 

input ci; 
output [3:0] s; 
output co; 
wire [2:0] cout; 


aadl 

adderO 

(a[0], 

b[0], 

ci. 

s[0]. 

cout [ 0]); 

addl 

adderl 

(a[l], 

b[l]. 

cout [0] f 

s[l]. 

cout [ 1]); 

addl 

adder2 

(a[2]. 

b[2], 

cout [ 1], 

s[2]. 

cout[2]); 

addl 

adder3 

(a[3]. 

b[3]. 

cout 【 2], 

s[3), 

co); 


endmodule 

现在我们回过头来看图 3.3 给出的加法 结果： 0111+0011 = 1010。如果我们 
认为它们都是无符号数，则该计算相当于十进制的7 + 3 = 10 。 如果是补码表示的 
带符号数，这时的结果 1010 是十进制的一 6( 见表3.2)。相加结果也应该是十进制的 
10, 但 4 位补码表示的二进制数只能表示到7。我们称其为结果上溢 （ Overflow), 即 
结果太大，超岀了可以表示的数的范围。 

我们再看以下的例子。同样是0111 + 1011 = 0010,无符号数相加时结果溢 
出，而带符号数相加时结果没有溢出。 

无符号数 相加： 带符号数 相加： 



7 5 2 


± 


± 
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1 0.000 (2) 0.1 11 
- 0.111 +1.001 (0.111 的补码） 

1.001 (0.111 的补码） 1 0 70 0 0 (2) 

为什么取反加1就会有这样的效果呢？这是因为一个数加上它的“反”等于全 
1,再加1变成全0并在最高位产生进位，也就是考虑小数点时的2。 

使用一 b = 6 + 1，我们可以用设计好的加法器来实现减法 操作： 

a — b = a + (—b) = a + b + 1 

图 3.8 是 4 位二进制数加减法器的电路图。图中的输人信号 sub 为 1 时^做减 
法，为 0 时做加法。做减法时异或门刚好用来对 b 取反，这是 因为： b© 1 =b, 而 
b ㊉0 = b 。 


a[3] b[3] a[2] 叫 2] a[l] b[l] a[0] b[0] 



s[3] s[2] s[l] s[0] 

图 3.8 4 位二进制数加减法器 





图 3.8 电路的 Verilog HDL 代码如下。对 ci 及 b 和 sub 的异或输出分别为 cib 及 
bb, 式中 {4{sub}} 是把 sub 扩展成 4 位。 

module addsub4 (a,b,ci,sub,s,co) ; 

input [3:0] a,b; 
input ci; 

input sub; // 1: sub; 0: add 
output [3:0] s; 
output co; 


wire 

cib = ci 

"sub; 





wire 

[3:0] bb : 

=b • 

{4{sub}} 

• 



wire 

[2:0] cout; 





addl 

adder0 ( 

a[0]. 

bb[0] f 

cib. 

s[0], 

cout [0]); 

addl 

adderl ( 

a[l]. 

bb[l] f 

cout [0], 

s[l]. 

cout [1]); 

addl 

adder2 ( 

a[2]. 

bb[2] f 

cout [ 1 ], 

s[2]. 

cout[2]); 

addl 

adder3 ( 

a[3] f 

bb[3]. 

cout [2] f 

s[3] f 

co); 


endmodule 
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以上代码的仿真结果见图3.9。再说一遍，不管是无符号数还是补码表示的带符 
号数，做加减运算时并无区别，区别在于对结果如何解释及如何使用。判断结果是 
否溢出的问题，见本章最后的练习题。 



围 3.9 加减法器电路的仿真结果 


3.2.2 先行进位加法器设计 

以上讨论的逐位进位加法器用英文称为 Ripple Adder 。 如果我们有一个32位的 
这样的加法器，进位将从输入的 ci 逐位地传递到最高位的进位输出 co , 途中穿越32 
个全加器。 

我们知道，电路是有延迟的，这样的长途旅行是要花时间的。为了加快加法器 
的运算速度，我们必须想办法能尽快地产生每位的进位位。快速产生进位位的方法 
有很多种，以下仅介绍一种简单的树型进位产生算法。由于 

c [ i + l 】 = a [ i ] b [ i 】 + a [ i ] c [ i ] + b [ i ] c [ i ] 

= a [ i ] b [ i 】+ ( a [ i ] - fb [ i ]) c [ i ] 

= g [ i ] + PW c [ i ] 

其中， g [ i ] = a [ i ] b [ i ] 称为进位产生函数， p [ i ] = a [ i ] + b [ i ] 称为进位传递函数，则 

邙十 1 】= g [ i 】 + P [ i ] g [ i _ l ] 

+ p [ i ] p [ i - l ] g [ i -2] 

+ ••• 

+ p [ i ] p [ i - l ].-- p [ l ] g [0] 

+ p [ i ] p [ i - l ]... p [ l ] p [0] c [0] 

从理论上讲，由 c [ i + l ] 的表达式我们可以并行产生所有位的进位输入，但是这 
样的电路太复杂， VLSI 实现起来不太现实。因此我们必须找出简单的 a 有规则的电 
路来产生进位输入。 

我们采用树型结构分层次产生进位位。表 3.4 列出了 8位先行进位加法器的进位 
产生的情况。图 3.10 是4位先行进位加法器的电路图。 

以下我们给出32位先行进位加法器的 Verilog HDL 代码。首先是一位加法器的 
代码，它是图 3.10 中最上层的模块的代码。除了产生一位加法结果 s 外，它也生成 
进位产生函数 g 和进位传递函数 p 。 
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p[0] cjn 

& g[o 】 

& c_in 


g[l] Pin c 一 out 

g 一 out - g[l] 

P-OUt = p[l] 

c—out = g[0 】 
c out p_out c_in 


g[l] p[l] C—out 

g—out = g 【 l 】 
P.out - p 【 l 】 
c 一 out = g [0] 

g 一 out p 一 out cjn 



G[3,2] P13.2] c[2] 


G[1 ， 0] P 【 1 ， 0 】 c[0] 



表 3.4 8 位先行进位加法器 


进位 


第一组 c[0] = cJn 


c[l] = g[0] + p[0] c[0] 


第二组 c[2] 

c[3] 






第一、 


G[l ， 0 】 + P 【 l ， 0 】 c[0 】 
g[2] + p[2] c[2] 

二组分 


第三组 c[4] = G[3,0] + P[3,0] c[0] 

c[5j = g[5] + p[5 】 c[4] 


第四组 c[6 】 




G[5,4 】 + P 【 5,4]c[4] 


c [ 7 】 =g[ 7 l + P [ 7 】 c [ 6 】 
第三、四组 


第一 、二、三、 四组 

c[8] = G[7,0] + P[7,0]c[0] 


产生函数和传递函数 


G[1,0] 

P[1 ， 0] 

G[3,2 】 




g[i 】 + pnu[ o ] 

pjlj p [°] 

g[3] + p[3] g[2] 


P[3,2] = p[3] p[2 】 


G[3,0 】 

P[3,0 】 

G[5,4] 

G[7,6] 

P[7,6] 

G[7,4j 

PTM ] 

G[7,0] 

P[7,0 】 










G[3,2 】 +P[3,2] G[1 ， 0] 
P[3,2] P[1 ， 0] _ 

g[5] + p[5] g[4] 

PW P [ 4 】 _ 

g[7] + p[7] g[6] 

pbi p[ 6 ] _ 

G[7,6] + P[7,6] G[5,4 】 
P[7,6 】 P[5,4 】 _ 

G[7,4] + P[7,4]G[3,0] 
P[7,4] P[3,0 】 


g[0] 



g[3] 


a 

b 

s 

s = 

a A 

b A c 

g = 

d & 

b 

p * 

a | 

b 

g 

P 

C 



a 

b 

s 

s 

=a 

A 

b A c 

g 

* a 

& 

b 

p 

】 a 

1 

b 


g 

P 

c 


g[2] 

Pf2] tc[2] 


a 


b 

s 

s = 

a 

A 

b A c 

g = 

a 

& 

b 

p = 

a 

1 

b 

g 


P 

V 

c 

M 


1J 1J 1 

]1 o o 

o [[[ 
^ ppp 


in 


p[ 


loo 

rL rl rl 
ppp 
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assign p = a I b; 
endmodule 

图 3.10 中间一层的两个模块和最下一层的模块是相同的电路，它的代码如下。 
除了产生一位进位位 c [ i ] 外，它也生成进位产生函数 G 和进位传递函数 P 。 我们这里 
称它为 GP 生成器。 

module g_p (g,p,c 一 in, g 一 out , p 一 out , c 一 out) ; 

input [1:0] g,p; 
input c 一 in; 

output g_out,p 一 out,c 一 out; 
assign g 一 out = g[1] I p[1] & g[0]; 
assign p 一 out = p[l] & p[0]; 
assign c 一 out = g[0] | p[0] & c 一 in; 

endmodule 

有了以上两个模块，我们可以设计一个两位的先行进位加法器了。它使用了两 
个一位加法器和一个 GP 生成器。这三个模块之间的连接关系请参照图3.10。 

module cla_2 (a,b,c—in, g 一 out,p—out,s} ; 

input [1:0] a,b; 
input c_in; 
output g_out , p 一 out; 
output [1:0] s; 
wire [1:0] g,p; 
wire c 一 out; 

add addO < a [0], b [0], c 一 in , g [0], p [0], s [0]); 
add addl ( a [1], b [1], c 一 out , g [ l ]/ P [ l ]/ S [ l ]); 
g_p g _ p 0 ( g ， p ， c 一 in , g 一 out ， p 一 out , c 一 out ); 
endmodule 

使用两个两位先行进位加法器和一个 GP 生成器，我们可以设计一个4位先行进 
位加法器。 

module cla—4 (a, b, c—in, g 一 out, p_out, s 〉； 

input [3:0] a,b; 
input c 一 in; 
output g—out,p 一 out; 
output [3:0] s; 
wire [1:0] g,p; 
wire c—out; 

cla 一 2 claO (a[l:0],b[l:0],c 一 in, g[0],p[0],s[l:0]}; 
cla 一 2 clal (a[3:2],b[3:2],c—out, g[l],p[l 】， s[3:2]>; 
g_P g-p0 (g ， p ， c 一 in, g—out, P 一 out, c 一 out 〉； 
endmodule 

使用两个 4 位先行进位加法器和一个 GP 生成器，我们可以设计一个8位先行进 
位加法器。 
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module cla_8 (a,b, c 一 in, g 一 out , p 一 out , s) 

input [7:0] a,b; 
input c 一 in; 





p—out 


output [7:0] s; 
wire [1:0] g,p; 



wire c 一 out; 

cla—4 claO (a[3:0],b[3:0],c 一 in, g[0],p[0],s [3:0]); 
cla 一 4 clal (a[7:4],b[7:4],c_out, g[l],p[l 】， s[7:4]>; 
g_p g_p0 (g ， p ， c_in, g 一 out, p 一 out ， c—out); 
endmodule 


使用两个 8 位先行进位加法器和一个 GP 生成器，我们可以设计一个16位先行 
进位加法器 3 

module cla 一 16 ( a , b, c_in, g — out, p—out, s); 

input [15:0] a,b; 
input c—in; 
output g 一 out,p—out; 
output [15:0] s; 
wire [1:0] q r p; 
wire c 一 out; 

cla 一 8 claO (a[7:0], b[7:0], c 一 in, g[0],p[0],s[7:0]}; 
cla—8 clal (a[15:8],b[15:8],c—out, g[l],p[l],s[15:8]); 
g-P g_p0 (g f P,C-in, g 一 out,P 一 out ， c 一 out); 
endmodule 


使用两个 16 位先行进位加法器和一个 GP 生成器，我们可以设计一个32位先行 
进位加法器。 

module cla 一 32 (a, b, c_in, g_out , p 一 out , s 〉 ； 

input [31:0] a,b; 
input c—in; 
output g_out,p_out; 
output [31:0] s; 
wire [1:0] g,p; 
wire c 一 out; 

cla—16 claO (a[15:0 ], b[15:0], c— in, g [ 0 ], p [ 0 ], s [ 15:0]); 
cla—16 clal (a[31:16],b[31:16],c 一 out, g[1] , p[1] f s[31:16]); 
g_p g—p0 (g ， p，c 一 in ， g 一 out, P—out, c— out) ; 
endmodule 

以下是 32 位先行进位加法器的最后的代码，除了产生32位加法结果，它也产 
生最后的进位输出。 . 

module cla32 (a,b,ci,s,co) ; 

input [31:0] a, b; 
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input ci; 
output [31:0] s; 
output co; 
wire g_out,p_out; 

cla—32 cla (a,b,ci,g 一 out,p 一 out,s); 
assign co = g 一 out I p—out & ci; 
endmodule 


图 3.11 是 32 位先行进位加法器 cla 32 的仿真结果。 
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图 3.1 1 32位先行进位加法器电路的仿真结果 


3-3 乘法算法及 Verilog HDL 实现 

本节介绍无符号数和带符号数的乘法算法。首先介绍基本的乘法算法，然后介 
绍 Wallace 树型乘法算法并给出 Verilog HDL 的实现。 


3.3.1 无符号数乘法器设计 


与十进制乘法计算一样，二进制的乘法可以用加法和移位操作来完成， 例如： 

1110 (14 10 ) 

X 1 0 1 0 (10, o ) 

0 0 0 0 

1110 
0 0 0 0 

+ 1110 

~ i o~o ~~0~~ ii ~~ o~o (i40io) 

两位二进制数相乘和逻辑与操作相同。我们可以用全加器阵列实现上述加法， 
也可以用循环迭代的方法实现。以下是两个16位无符号二进制数用迭代方法实现乘 
法操作的 C 语言版本，也是通过加法和移位操作来完成的。 

#include <stdio.h> 

unsigned int mull6 (unsigned int x, unsigned int y) { 

unsigned int a f b f c; 
unsigned int i; // counter 
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a = x; // multiplicand 
b = y; // multiplier 
c = 0; // product 

for (i = 0; i < 16; i++) { // for 16 bits 

if ((b & 1) == 1) { // LSB of b is 1 

c += a; // c = c + a 

} 

a = a << 1; // shift a 1-bit left 

b = b >> 1; // shift b 1-bit right 

} 

return(c); // return product 

} 

main () { 

unsigned int x,y; 

fprintf(stderr, "input 1st 16-bit unsigned integer in hex : ”）； 
fscanf(stdin,"%x w , & x); 

fprintf(stderr,"input 2nd 16-bit unsigned integer in hex : "); 
fscanf(stdin,"%x", & y); 
x &= Oxffff; 
y &= Oxffff; 

fprintf (stderr # f, %04x * %04x = %08x\n ”， x f y, mull6 (x, y)); 

} 

编译及运行的例子如下 所示： 

[yamin@localhost cpu]$ gcc mul.c -o mul 
[yamin@localhost cpu]$ ./mul 

input 1st 16-bit unsigned integer in hex : c9ae 
input 2nd 16-bit unsigned integer in hex : f6e5 
c9ae * f6e5 = c2819ca6 
[yamin01ocalhost cpu]$ 

作为练习题，请读者用 Verilog HDL 实现上述 mul 16所完成的操作。 

3.3.2 带符号数乘法器设计 

设有两个补码表示的 8 位带符号数 A 8 和 B 8 , 试计算 Z 16 = A 8 X B 8o 

6 

Ag = a7a6a5a4a3a2aiao = — a7 x 2 7 + ^ aj x 2 1 = —a7 X 2 7 + A7 

i =0 

6 

Bg = b7b6b5b4b3b2bibo = — bj x 2 7 + bj x 2 j = — b7 x 2 7 + B7 

1=0 

其中， A7 和 B7 是无符号数。由于 （a + b)(x + y ) = ax + ay + bx + by ， 我们有 
Zi6 = 八 8 x Bs = (—a7 x 2 7 + A7) x (—b7 x 2 7 + B7) = a7 x b7 x 2 14 + (—a7 x 
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B 7 ) X 2 7 + (— b 7 X A 7 ) X 2 7 + A 7 X B 7 。 其中第 1 项 a 7 X b 7 和第 4 项 A 7 X B 7 与无 

符号数乘相同，而第2项和第3项为负，如图 3 J 2 所示 [32】 。 



Zl5 Z 14 Z 13 Z 12 Zii Zh) Z09 208 Zq7 Z06 Z05 ZQ4 Z 03 Z02 ZQ1 ZOO 


图 3.12 带符号数 乘法： a 7 和 b 7 为负 

写成二进制位的 形式： 

a7 X B7 = 0 0 ayb6 a 7 bs a ? b4 a7b3 a 7 b 2 27b 1 a 7 bo 
b 7 x A7 = 0 0 a6b7 asby 04 ^ ^ 2^1 ajb7 aob7 

我们已经知道 _ x = X + 1 。对这两项同时取反加 1 后再相加，我们有 


15 

14 

13 

12 

11 

10 

9 

8 

7 

1 

1 

a7b 6 

a 7 b 5 

37 b 4 

a 7 b 3 

a ， b2 

a 7 bi 

a 7 b 。 

1 

1 

以7 

asb ? 

袖7 

a 3 b 7 

b 7 

aib 7 

aob 7 

0 

0 

0 

0 

0 

0 

0 

0 

1 

+ 0 

0 

0 

0 

0 

0 

0 

0 

1 

化简后 变为： 









15 

14 

13 

12 

11 

10 

9 

8 

7 

0 

0 

a 7 b 6 

a ? b 5 

a ， b4 

a 7 b 3 

a 7 b 2 

37b 1 

a 7 b 0 

0 

0 

以7 

asb 7 


a 3 b 7 

a 〗 b 7 

aib 7 

aob 7 

+ 1 

0 

0 

0 

0 

0 

0 

1 

0 


我们把两个1放在合适的位置，如图 3.13 所示，再把所有乘积项相加，就可得 
到带符号数的相乘结果。 
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+ 


15 14 13 12 11 10 9 8 7 6 



_5_4_ 

a*b| ajbj 

a ， b2 a2b2 

^2^3 ajbj 

a 々 4 3o^4 

ao^>5 


3 2 10 

ajbo a^bo aibo aobo 

azbi ajbi aobi 

a!b2 Bob： 

“ 

aol>3 

AND 


NAND ( 取反 ) 


z 15 Zj4 ZJ3 Z|2 Zj| Zio Zqq Zo8 Z07 Z06 ZQ5 Z 04 Z 03 ZQ2 ZOl Zqo 


阁 3.13 带符号数 乘法： 取反加 1 


带符号数乘法器的非常直观的 Verilog HDL 代码如下。前面部分乘积项的产生 
“相当于”全部用与门，后面部分相加之前再取反。我们在相加语句中加了括号，以 
实现并行相加。如果不加括号，有可能生成的电路是顺序相加。 


module mul_signed (a,b. 


input [7:0] a,b; 
output [15:0] z; 
wire [7:0] abO 
wire [7:0] abl 
wire [7:0] ab2 
wire [7:0] ab3 
wire [7:0] ab4 
wire [7:0] ab5 
wire [7:0] ab6 
wire [7:0] ab7 
















b[0]? a 
b[l]? a 
b[2]? a 
b[3]? a 
b[4]? a 
b[5]? a 
b[6]? a 
b[7]? a 


8 ， b0 
8 f b0 
8 f b0 
8 ， b0 , 
8^0 
8 ， b0 , 
8 ， b0 , 
8^0 


assign z 


endmodule 


(({8 f bl^ab0[7] f ab0[6 
{7 ， b0,^abl[7],abl[6 
({6 ， b0,~ab2[7] f ab2[6 
{5 ， b0,-ab3[7],ab3[6 
(({4 ， b0,~ab4[7],ab4[6 
{3 ， b0,~ab5[7] f ab5[6 
({2 f b0,-ab6[7] f ab6[6 
{l ， bl,ab7[7],~ab7[6 


0 ] } 

0],l ， b0}) 

0 】 ， 2 ， b0} 
0 】， 3 ， bO") 
0],4 # b0} 
OWbO" 

0],6 ， b0} 
0],7 ， b0})) ; 






以下是带符号数乘法器的第二个 Verilog HDL 版本。它直接在前面部分用与非 
门，经逻辑综合后的电路比第一个版本简单。第一个版本前面部分乘积项的产生经 
逻辑综合后使用了多路选择器。 
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module mul_signed_v2 (a,b,z); 

input [7:0] a,b; 
output [15:0] z; 
reg [7:0] a — bi[7:0]; 
always @ ★ begin 

integer i,j; 

for (i = 0; i < 7; i = i + 1) 

for (j = 0; j < 7; j = j + 1) 
a—bi[i][j] = a[i] & b[j]; 
for (i = 0; i < 7; i = i + 1> 

a—bi[i][7] = -(a[i] & b[7]); 
for (j = 0; j < 7; j = j + 1) 

a—bi[7] [j] = 、 a[7] & b[j]); 
a 一 bi[7] [7] = a[7] & b[7]; 

end 

assign z = (({8’bl,a—bi[0][7],a 一 bi[0][6:0]} + 

{7 ， b0,a_bi[l] [7] f a_bi[l] [6:01,1^0}) + 

({6 ， b0,a_bi[2] [7 】， a_bi[2] [6:0] ,2^0} + 

{5 ， b0,a_bi[3] [7] f a_bi[3] [6:01,3^0})) + 
(({4^bO f a_bi[4][7],a—bi 【 4][6:0] f 4^b0} + 

{3 f bO f a_bi[5][7],a—bi[5][6:0] f 5 f b0}) + 

({2 f bO f a_bi[6][7],a—bi[6][6:0],6 f b0} + 

U ， bl,a_bi[7] [7 】， a_bi[7 】 [6:0], 7 ， b0 ”）； 

endmodule 

两个版本有相同的仿真结果，见图3.14。最左数据示出的是（一 1) X ( — 1) = 1。 

z ( 0001 X ~ 3F01 X 3E04 \ 3D09 )fC17E X C27A X 0000 X 0001 X 0004 X 0009 ) 

^ 11 w ■ • _■■■■_ ■ • ••••• •• -•— ♦ 1 ■ — • • • r • ■" 两 . —• — ^r- ■ _ 画 • f 画 — 

图 3.14 带符号数乘法器的仿真结果 


3.3.3 无符号数 Wallace 树型乘法器设计 


我们以8位乘以8位无符号数为例来说明 Wallace Tree 乘法算法，见阁3.15。 
图中8位二进制数 a 和8位二进制数 b 相乘产生64个乘积项， a [ i ] X b [ j ], i,j = 
0 ,1,...,7, 图中用 * 表示。它们所在的位置构成平行四边形。处在同一列的所有乘 
积项与从右边过来的进位相加，得到乘积的一位结果。由于64个乘积项可以用64 
个逻辑与门同时得到，我们可以用多个全加器对处在同一列的乘积项同时相加。 

一个全加器有3位输入和两位 输出： 一 位输出是加法结果，另一位是进位。图 
中的一个长方形代表一个全加器（内部有两个 * 的长方形可以用半加器实现)。圆圈中 
的单个乘积项暂时不做任何处理，送到下一级参加运算。 
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# 


a[7] a[6] a[5] a[4] a[3] a[2] a[l] a[0] 

X b[7] b[6] b[5] b[4] b[3] b[2] b[l] b[0] 


a X b[0] 
a X b[l] 
a X b[2] 


餐 


axb[3] - ^ FI 卜 」 [ I 

a X b[4] - ^ F] [i LJ F\ H 

a X b[5] - ^ PI 1*1 U FI 1*1 

a x b[6] — ► PI M U FI r! U PI 

a X b[7] — 



__P G 

U FI FI FI FI © 




乘积位编号 14 13 12 11 10 09 08 07 06 05 04 03 02 01 00 
乘积项数目 12345678765432 1 
全加器数目 011122232221110 


图 3.15 8 x 8 Wallace 树型乘法器乘积项 

图 3.16 示出了第07位的运算情况。第07位有8个乘积项，它们分别是 a [7 ]x 
b [0], a [6] x b [ l ], a [5] x b [2]， a [4] x b [3], a [3] X b [4], ap ] X b [5】， a [ l ] x b [6】 和 

a [0] x b [7】。 注意每一项 a 和 b 括号中的数字相加等于7。 


第 08 位 

第 1 级全加器 

第 07 位 （8 个乘 

: 积项） 

， 

第 06 位 

• 

4 - — H 

第 2 级全加器 

^- i -: 

I'f l"W 

i r^n 

# 

4 - - '、 

第 3 级全加器 

44 


• 

帶 

第 4 级全加器 

1 - 

_ i 

4 rir 

1 

■ ■ ■- —— - 



图 3.16 8 x 8 Wallace 树型乘法器第07位 

在第1级，我们使用3个全加器，产生3位相加结果及3位进位。3位进位送到 
左边的第08位。第2级有5位要相加，其中的3位来自第1级，两位是来自右边第 
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06位的进位。第2级使用两个全加器。第3级和第4级都只用一个全加器。每一级 
的延迟等于一个全加器的延迟。我们把所有第4级的输出分成 c ( Carry ) 和 s ( Sum ) 两 
组，再把它们用进位传播加法器相加，得到最后的结果（乘积)。 

图 3.17 是 8 X 8 Wallace 树型乘法器总体电路图。图中第1行数字是乘积位的编 
号，第2行的数字是相应位的乘积项数量。加法器中的数字是该加法器名称的右半 
部分，左半部分在图中的最左侧给出。例如，左上角的加法器的名称为 falJ 2_0。 



15 14 13 12 II 10 09 08 07 06 05 04 03 02 01 00 


图 3.17 8 x 8 Wallace 树型乘法器 

现在我们给出实现 8 x 8 Wallace 树型乘法器的 Verilog HDL 代码。输入是两 
个8位的变 M a 和 b ， 输出是16位 z 。 首先我们用64个与门实现64个乘积项 
P [ i ][ j ] = a [ i ] & b [ j ]， i，j = 0, l ,---,7 0 

module wallace — tree8 (a,b,z); 

input [7:0] a,b; 
output [15:0] z; 
reg [7:0] p[7:0]; 
always @ * begin 

integer j; 

for (i = 0; i < 8; i = i + 1) 

for (j = 0; j < 8; j = j + 1) 

p[i] [j] = a[i] & b[j]; 

end 

assign z[0] = p[0][0]; 

以下是第 1 级加法器的代码 。 add 1 ( a , b , ci , s , co ) 是全加器模块，其中 a ， b，ci 
是 3 位输入， s 是全加器的和， co 是进位。双斜杠右边的是本级未处理的乘积项，不 
要忘了把它们送到下一级。 
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parameter zero = 1 f b0; 
wire [2:0] si[12:01]; 
wire [2:0] cl[13:02]; 

// index 14: p[7][7] 

// index 13: p[7][6],p[6][7] 

addl fal 一 12-0 (p[7] [5],p[6] [ 6 】 ， p [5] [7],si [ 12] [0],cl [ 13] [0]); 

addl fal_Ll 一 0 (p[7] [4],p[6] [5] # p[5] [6],si [ 11] [0] f cl[12] [0]); 

// index 11: p[4] [7] 

addl fal 一 lOj (p [7 ] [ 3], p [ 6] [ 4 ] , p [ 5 ] [ 5 】 ，si [ 10 】 [1 ], cl 【 11 】【 1 ]); 

addl fal 一 10 一 0 (p[4] [6],p[3] [7],zero, si [10 】 [0],cl[11 】 [0]); 

addl fal 一 09 一 1 (p[7] [2] f p[6] [3] f p[5] [4],si [09] [1],cl[10] [1]); 

addl fal 一 09 一 0 (p[4 】 [5],p[3][6],p[2 】 [7],si 【 09][0],cl[10][0 ”； 
addl fal 一 08 一 1 (p[7] [l],p[6] [2],p[5] [3],sl[08] [l],cl[09] [1]>; 
// index 08: p[l][7] 

addl fal 一 08 一 0 (p[4] [4],p[3] [5],p[2] [6],sl[08] [0],cl[09] [0]>; 
addl fal 一 07 一 2 (p[7] [0] /P [6] [1],p[5] [2] f si [07] [2] f cl[08] [2]); 

addl fal 一 07 一 1 (p[4] [3] f p[3] [4] /P [2] [5] f sl[07] [l],cl[08] [1]); 

addl fal 一 07 一 0 (p[1] [6], p[0] [7],zero, si[07] [0 】， cl[08] [0]); 

addl fail 一 06—1 (p [ 6] [0] , p [5] [1 ] , p [4 ] [2], si [06] [ 1 ] , cl [07] [ 1 ]); 

// index 06: p[0][6] 

addl fal 一 06 一 0 (p[3][3],p[2][4],p[l] [5],si[06] [0] f cl[07] [0]) 
addl fal 一 05 一 1 <p[5] [0 】， p 【 4 】 【 1 】 ， p[3] [2],si [05] [1 】， cl[06 】 [1]> 

addl fal-05 一 0 (p[2 】 [3 】， p[1] 【 4],p[0] [5],si [05] [0],cl[06] [0]> 

addl fal 一 04 」 (p[4] [0],p[3] [l] f p[2] [21.SH04] [l] # cl[05] [1]) 
addl fal 一 04 一 0 (p[l] [3 】， p[0] [4],zero, si [04] [0],cl [05] [0]) 
addl fal 一 03 一 0 (p 【 3] [0 】， p[2] [l 】， p[l][2],sl[03] [0 】， cl[04] [0]> 
// index 03: p[0][3] 

addl fal 一 02-0 (p[2] [0] f p[1] [1] f p[0] [2],si [02] [0] f cl[03] [0]); 

addl fal 一 01—0 (p[1] [0],p[0] [1],zero, si [01 】【 0],cl[02 】 [0]); 

assign z[1] = s1 [01] [0]; 

以下是第 2 级加法器的代码。 

wire [1:0] s2[ 13:02 ] ; 
wire [1:0] c2[ 14: 03] ; 

// index 14: p[7][7] 

addl fa2 一 13_0 ( p[7 】 [6】, p[6 】 [7】, cl[13] [0 】， s2 【 13 】 [0 】， c2[14 】 [0】}; 

addl fa2_12—0 (si[12][0],cl[12][0],zero, s2[12 】【 0],c2[13][0]); 

addl fa2 一 11 一 0 (sl[ll][0】, p[4][7】, cl[11][0 】， s2 【 11 】 [0], c2[12 】【 0]> ; 

// index 11: cl[11 ] [0] 

addl fa2 一 10—0 (si[10] [1] r sl[10] [0 】， cl[10 】 [0] f s2[10] [0],c2[ll 】 [0]); 
II index 10: cl[10] [0 】 

addl fa2 一 09 一 0 (si[09][l 】， sl 【 09 】 [0] f cl[09][1] f s2[09][0 】， c2[10][0]); 
// index 09: cl[09][0] 

addl fa2 一 08 一 1 (si[08 】 [1 】 ， si[08][0 】， p[l][7], s2[08][1],c2[09][1]); 
addl fa2—08—0 (cl[08] 【 2],cl 【 08][l],cl[08][0],s2 【 08 】 [0] f c2[09][0]); 
addl fa2—07_1 (si[07] [2 】， si[07 】【 l 】， sl[07] [0] , s2[07] [1] f c2[08] [1 ]); 
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addl fa2 一 07 一 0 《cl [07 】 [1] , cl[07] [0 】， zero, s2[07] [0] # c2[08] [0]); 

addl fa2—06__l (si [06 】 [1],si 【 06] [0], p[0 】【 6], s2 [06] [1] # c2[07] [1]); 
addl fa2 一 06 一 0 (cl[06 】 [1],cl[06] 【 0 】 ， zero, s2[06] [0],c2[07] [0]); 

addl fa2_05 一 0 (si[05][l],sl[05 】 [0 】， cl[05][l 】， s2[05][0],c2[06][0]); 

// index 05: cl[05][0] 

addl fa2—04—0 (si [04] [1],sl [04] [0 】， cl[04] [0],s2[04] 【 0 】， c2 【 05] [0]); 
addl fa2 一 03 一 0 (si[03] [0], p[0 】 [3】, cl[03][0] # s2[03][0],c2[04] [01); 
addl fa2—02—0 (si[02] [0],cl [02] 【 0],zero, s2 [02] [0],c2[03] [0]); 

assign z[2] = s2[02] [0]; 

以下是第 3 级加法器的代码。 

wire [11:03] s3; 
wire [12:04] c3; 

// index 14: p[7] [7], c2 [14] [0] 

// index 13: s2 【 13 】 [0],c2 [13] [0] 

// index 12: s2[12] [0] f c2[12] [0] 

addl fa3—11—0 (s2[11][0],cl[ll][0],c2[ll][0] f s3[11],c3[12]); 
addl fa3_10.0 (s2[10][0],cl[10 】 [0] / c2[10][0],s3[10],c3[11】>; 
addl fa3—09—0 (s2[09] 【 0],cl[09] 【 0],c2[09][1],s3[09],c3[10】>; 

// index 09: c2[09] [0] 

addl fa3 一 08 一 0 (s2[08][1],s2 [08] [0],c2 [08] [0],s3[08],c3[09]>; 
addl fa3 一 07 一 0 (s2[07][l] / s2[07][0] / c2[07][1],s3[07],c3[08]); 

.11 index 07: c2 [07] [0] 

addl fa3 一 0 6—0 (s2[06] [l 】， s2[06] [0] / c2[06] [0], s3[06] f c3[07]); 
addl fa3 一 05 一 0 (s2[05] [0],cl[05][0 】， c2[05] [0],s3 [05],c3[06]); 
addl fa3—04_0 (s2[04] [0],c2[04] [0],zero, s3[04], c3[05]); 

addl fa3_03.0 (s2[03] [0] , c2[03] [0] , zero, s3[03], c3[04 ]); 

assign z[3] = s3 [03]; 

以下是第 4 级加法器的代码。最后使用一般的进位传播加法器加 s 4 和 c 4, 得到 
结果 Z 的高位部分。进位传播加法器可以是先行进位加法器。 


wire [14:04] s4 ; 
wire [15:05] c4; 


addl fa4 一 14 一 0 ( p[7][7], c2 [14] [0],zero, s4[14],c4[15]) 
addl fa4—13_0 (s2[13][0] # c2[13][0] f zero, s4[13] f c4[14]) 
addl fa4_12_0 (s2[12][0],c2[12][0],c3[12],s4[12],c4[13]> 


addl fa4 」 l_0 (s3[ll], 
addl fa4_10—0 (s3[10 】， 
addl fa4 一 09—0 (s3[09], 
addl fa4_08 一 0 (s3[08], 
addl fa4_07_0 (s3 【 07], 
addl fa4 一 06 一 0 (s3[06], 
addl fa4 一 05 一 0 (s3[05], 
addl fa4 一 04 一 0 (s3[04] / 


assign z[4] 




s4[04] 


c3[ll], 

c3[10]. 


zero, s4[11] f c4[12]) 
zero, s4[10],c4[ll]) 


c2[09] [0],c3[09],s4[09],c4[10 】） 
c2[08] [0],c3[08],s4[08],c4[09】> 
c2 【 07] [0] f c3[07] f s4[07],c4[081) 


c3 [06], 
c3 [05] f 
c3[04]. 


zero, s4[06] f c4[07]) 
zero, s4[05],c4[06]) 
zero, s4[04] , c4[05]) 
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assign z[ 15: 5] = { 1’ bO,s4[ 14: 05]} + c4[15:05] ; 
endmodule 


图 3.18 给出 8 x 8 Wallace 树型乘法器的仿真结果。 



图 3.18 8x8 Wallace 树铟乘法器仿真结果 


3.3.4 带符号数 Wallace 树型乘法器设计 


我们仍使用已经描述过的带符号数乘法算法来设计带符号数 Wallace 树型乘法 
器。以下是带符号数的 8 X 8 Wallace 树型乘法器的 Verilog HDL 代码。与无符号数的 
Wallace 树型乘法器的代码相比，有以下两点 不同： （1) 乘积项的产生不仅用了与门， 
而且也用了与 非门； （2) 由于要加1000 0001 0000 0000,第08位的第1级输入变为8 
个，因此需要3个全加器。 

module Wallace—tree8 一 signed (a,b,z) ; 
input 【 7:0 】 a,b; 
output [15:0] z; 
reg [7:0] p[7:0]; 
always @ * begin 
integer i,j; 

for (i = 0; i < 7; i = i + 1} 

for (j = 0; j < 7; j = j + 1) 

p[i][j] = a[i] & b[j]; II AND 
for (i = 0; i < 7; i = i + 1) 

p[i] [7] = -(a[i] & b[7]); // NAND 

for (j = 0; j < 7; j = j + 1) 

p[7] [j] = ^(a[7] & b[j]); // NAND 

p[7][7] = a[7] & b[7]; // AND 

end 

assign z[0] = p[0 】 [0 】； 
parameter zero = bO; 

parameter one = l f bl; // + 1000_0001 一 0000_0000 • 

wire [2:0] si[12:01]; 
wire [2:0] cl[13:02]; 

addl fal 一 12 一 0 (p[7 】 [5],p[6 】 [6],p[5 】 [7 】 ， si [12 】[。】 ， cl[13] 【 0 ] >; 
addl fal 一 11—0 (p[7 】 [4],p[6][5],p[5][6 】， sl[ll][0 】， cl[12 】 [0]); 
addl fal 一 10 一 1 (p[7][3],p[6][4] /P [5][5],sl[10][l] r cl[ll][1]); 
addl fa1^10.0 (p[4][6] f p[3][7],zero, si[10] 【 0],cl[11 】 【 0 】 ）； 
addl fal 一 09 一 1 (p[7][2] f p[6][3],p[5][4] # sl[09][l] # cl[10][1]); 
addl fal 一 09—0 (p[4] [5],p[3] [6],p[2] [7] , si[09] [0] f cl [10] [0]); 
addl fa1.08.2 (p[7][1] f p[6][2],p[5][3] f si[08][2] f cl[09][2]); 
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addl fal_08 一 1 (p[4 】【 4],p[3 】 【 5 】 ， p 【 2 】 [6], si[08 】 [1], cl[09] [1J>; 

addl fal—08-0 (p[l] [7] f one, zero, si[08] [0 】 ,cl[09] [0】）；// 1 
addl fal 一 07 一 2 (p[7][0],p[6 】 [1 】， p 【 5 】 【 2],si[07 】 [2 】， cl[08] [2】>; 
addl fal 一 07_1 (p[4] [3],p[3] [4],p[2] [5],sl[07] [1] /C 1(08] [1]); 

addl fal 一 07—0 (p[l] [6] ,p[0 】 [7] , zero, si[07 】【 0],cl 【 08] [0]>; 
addl fa1.06.1 (p[6][0] r p[5][l],p[4][2] f si[06][l],cl[07][1]); 
addl fa1.06.0 (p[3][3] # p[2][4] f p[l][5] f si[06][0],cl[07][0]); 
addl fal 一 05j <p[5] [0],p[4 】 [l 】， p[3 】 [2],sl[05] [l],cl[06] [1】>; 
addl fal 一 05 一 0 (p[2 】 [3] ,p[l] [4] ,p[0J [5], si[05] [0], cl[06] [0 】）； 
addl fal—04—1 (p[4][ 。】， P[3 】 [1 】， p 【 2 】 [2J,si[04 】 [1],cl[05][1】）; 
addl fal_04_0 (p[1] [3],p[0 】 [4],zero, si[04] [0] / cl[05] [0]); 
addl fal 一 03 一 0 <p[3 】 [0],p[2 】 [1 】， p[l 】【 2],si[03 】 [0],cl[04 】 [0】>; 
addl fal 一 02_0 (p 【 2 】 [0],p[l] 【 1 】 ， p[0 】【 2], si[02 】 【 0 】 ， cl 【 03][0】" 

addl fal_01—0 (p[l] [0] f p[0] [l] f zero, si[01] [0 】， cl[02] [0]); 
assign z[1] = si[01] [0]; 
wire [1:0] s2[13:02); 
wire [1:0] c2[14:03]; 

addl fa2 一 13—0 ( p[7][6 】， p[6] [l) f cl[13 】 [0], s2[13] [0],c2[14 】 [0]) 

addl fa2 一 12 一 0 (si [12][0] ,cl[12] [0],zero, s2[12] [0 】 ,c2 [ 13 】 [0]) 

addl fa2 一 11 一 0 (sl[ll][0 】， p[4] [7) f cl[11] [ 1],s2 [ 11] [ 0 】 ， c2 [ 12][0]) 
addl fa2—10_0 (si[10] [1],sl[10] [0], cl[10] [l],s2 【 10] [0 】， c2[ll] [0]) 
addl fa2_09_l (si[09 】 [1] ,sl[09] [0] f cl[09] [2],s2[09] [1] f c2 [10] [1]) 
addl fa2 一 09_0 (cl 【 09 】 [1],cl[09] 【 0],zero, s2[09][0],c2[10][0]) 

addl fa2 一 08—1 (si[08][2] f si[08][l],sl[08][0],s2[08][1] f c2[09][1]) 
addl fa2 一 08 一 0 (cl[08][2],cl[08][1] f cl[08][0],s2[08][0] f c2[09][0]) 
addl fa2 一 07 一 1 (si[07] [2] # sl[07] [l] # sl[07] [0] / s2[07] [1] f c2 [08] [1]) 
addl fa2 一 07_0 (cl[07 】 [1],cl[07 】 [0],zero, s2[07] [0 】， c2 【 08] [0]) 

addl fa2 一 06—1 (si[06 】 [1],si[06 】 [0], p[0][6] # s2[06][l] / c2[07][1]) 
addl fa2 一 06 一 0 (cl[06][1],cl[06][0],zero, s2[06][0] f c2[07][0]) 

addl fa2 一 05 一 0 (si[05] [l] r sl[05] [0] ,cl[05] [l] / s2[05] [0],c2[06 】 [0]) 
addl fa2.04.0 (si[04][l],sl[04][0] f cl[04][0],s2[04][0 】， c2 【 05 】 [0]) 
addl fa2—03—0 (si [03] [0] f p[0] [3] # cl [03] [0 】， s2 [03] [0] , c2 [04 】 [0]) 
addl fa2_02_0 (si[02 】 [0],cl[02] [0],zero, s2 [02] [0 】， c2 [03] [0]) 

assign z[2] = s2 [02] [0]; 
wire [11:03] s3; 
wire [12:04] c3; 

addl fa3.11.0 (s2[ll] [0] f cl[ll] [0] f c2[ll] [0] f s3[11],c3 [12]); 
addl fa3 一 10—0 (s2[10 】 [0 】， cl[10][0],c2[10][1 】， s3[10],c3[11]); 
addl fa3 一 09 一 0 (s2[09 】 [1],s2[09][0 】， c2[09][1 】， s3[09],c3[10]); 
addl fa3 一 08—0 (s2[08] [l] / s2[08][0],c2[08][1], s3[08] f c3[09]); 
addl fa3_07.0 (s2[07] 【 l],s2 【 07 】 [0] # c2[07][1] f s3[07] f c3[08]); 
addl fa3.06.0 (s2[06 】【 1],s2 【 06 】 [0], c2 【 06 】 [0],s3[06],c3 [07]>; 
addl fa3.05_0 (s2 【 05 】 [0 】， cl[05] 【 0 】 ， c2[05 】 [0 】， s3[05],c3[06]); 
addl fa3_04_0 (s2[04] [0], c2[04] [0], zero, s3[04] f c3[05]); 

addl fa3_03 一 0 (s2[03] [0 】， c2[03] [0],zero, s3[03] f c3 [04]); 

assign z[3] = s3[03]; 
wire [14:04] s4; 






84 


第 3 章计算机算法及其 Verilog HDL 实现 


c3[ll 】， 


zero, s4[11 ] f c4[12 】） 


wire [15:05] c4; 

addl fa4 」 4_0< p 【 7][7], C 2 [14] [0] , zero, s4 [ 14 ] f c4 [ 15 ]) 
addl fa4_13_0 (s2fl3] [0 】， c2[13] [0], zero, s4[13] f c4[14]) 
addl fa4 」 2_0 (s2 [12] [0], c2 [12][0 】， c3 [12], s4 [12], c4 [13] > 
addl fa4_ll_0 (s3[ll], 
addl fa4_10 一 0 (s3[10], 
addl fa4_09_0 (s3[09] f 
addl fa4_08_0 (s3[08] f 
addl fa4_07—0 (s3[07], 
addl fa4_06_0 (s3[06], 
addl fa4 一 05—0 (s3[05], 
addl fa4 一 04—0 (s3[04]. 


c2 [10] [0] ,c3 [10], s4 [10] ,c4 [lin 

c2[09][0 】， c3[09],s4[09],c4[10】) 
c2 [08] [0 】， c3[08 】， s4 [08] [09" 

c2[07] [0] ,c3[07] , s4 【 07],c4 [08]> 


c3 [06], 
c3 [05], 
c3[04], 


zero, s4[06],c4[07 】） 
zero, s4 [05],c4[06]) 
zero, s4[04] f c4[05]) 


assign z[4]= 
assign z[15:5] 


s4[04 】； 




{one,s4[14:05 ] 丨 + c4[15:05]; // 1 


endmodule 


仿真结果与图 3.14 (带符号数相乘)相同^ 


3.4 除法算法及 Veriiog HDL 实现 

本节介绍各种除法算法，包括无符号数的“恢复余数”和“不恢复余数”除法算 
法、带符号数的不恢复余数除法算法、 Goldschmidt 算法以及 Newton - Raphson 算法， 
并给出所有这些算法的 Verilog HDL 代码。 

3.4.1 恢复余数除法器设计 

恢复余数除法的基本思路是从“部分余数”中减去除数，如果结果为负（不够 
减)，则恢复原来的部分余数，商0。我们使用3个寄存器： reg _ q 、 reg _ b 和 reg _ r 。 开 
始时， reg _ q 存放被除数 a ， reg _ b # 放除数 b ， reg _ i •清零。计算完成后， reg _ q 中的内 
容是商， regj •中的内容是余数。图 3.19 所示的是32位除以16位的电路图。 

做减法时，减数是 reg _ b 中的内容（除数)，被减数是 reg _ i ■的内容（余数）左移一 
位，最低位由 reg-q (被除数）的最高位补充。为了能够判断相减结果的正负，减法器 
的位数要比除数的位数多出一位。如果相减结果（部分余数）为正（减法器输出的最髙 
位是0)，商1 ( 非门的输出)，把相减结果写人 reg_r (多路器选右端的输人)， reg _ q 的 
内容左移一位，最低位放入商1。如果相减结果为负，商0,把被减数写入 reg_r (多 
路器选左端的输入，相当于恢复余数)， reg . q 的内容左移一位，最低位放入商0。如 
此循环往复，直到被除数全被移出 reg _ q 为止。 

恢复余数的任务由 reg_r h 面的多路器完成，多路器的选择信号是相减结果的符 
号位。被减数的左移操作通过适当的连线实现，被除数的左移操作由右边的二选一 
多路器经适当的连线完成。为什么还要用一个多路器？因为开始时要把被除数打入 
寄存器 reg . q , 迭代时要把 reg _ q 的内容左移。 
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r[ 15:00] q[31:00] 

图 3.19 恢复余数除法器总体电路图 


恢复余数除法器的 Verilog HDL 代码如下。输人信号 a 是被除数， b 是除数。输 
出信号 q 是商， r 是余数。另外几个重要的信号需要解释 一下： start 表示启动除法运 
算； busy 表示除法器忙 着呢； ready 表示结果出 来了； count 是一个计数器，控制迭 
代次数。 

module div 一 restoring (a,b,start,clock, resetn,q, r, busy, ready, count); 

input [31:00] a; // dividend 

input [15:00] b; // divisor 

input start; // ID stage : start = is—div & ~busy; 

input clock,resetn; 

output [31:00] q; // quotient 

§ 

output [15:00] r; // remainder 

output busy; // cannot receive new div 

output ready; // ready to save result 

output [4:0] count; // for sim test only 
reg [31:00] reg—q; 
reg [15:00] reg 一 r; 
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reg [15:00] reg—b; 
reg [4:0] count; 
reg busy,busy2; 

always @ (posedge clock or negedge resetn) begin 

if (resetn == 0) begin 

count <= 5 f bO; // reset count 

busy <= 0; // reset to not busy 

busy2 <= 0; // for generating 1-cycle ready 

end else begin // not reset 

busy2 <= busy; // 1-cycle delay of busy 

if (start) begin // start : 1 cycle only 

reg_r <= 16’hO; // reset remainder 
reg_q <= a; // load a 

reg 一 b <= b; // load b 

count <= 5 f bO; // reset count 
busy <= l f bl; // set to busy 
end else if (busy) begin // execution : 32 cycles 
reg 一 r <= mux—out; // partial remainder 

reg — q <= {reg_q[30:00] ， ~sub 一 out[16]}; // 1-bit q 
count <= count + 5’bl; // count++ 
if (count == 5 r hlf) busy <= 0; // finish 

end 

end 

end 

assign ready = ~busy & busy2; // generate 1-cycle ready 
wire [16:00] sub 一 out = {r,q[31]} - {1'bO,reg 一 b}; // sub 
wire [15:00] mux_out = sub 一 out[16]? // restoring or not 

{r[14:0],q[31】} : sub—out[15:00]; 

assign q = reg 一 q; 
assign r = reg_r; 
endmodule 

恢复余数除法器的仿真结果如图 3.20 所示，其中的计数器只做参考用。 

3.4.2 不恢复余数除法器设计 

在恢复余数除法算法中，如果部分余数为负，则要恢复原来的余数并左移。设 
部分余数为 R , 除数为 B 。 恢复余数相当于 R + B ， 左移相当于 （R + B ) X 2。 以上 
操作完成后进行下一轮的迭代，即从部分余数中减去 B 。 我们有以下的 等式： 

(R + B ) x 2 -B = Rx 2 + B 

这就是不恢复余数除法算法的中心思想。即，不管相减结果是正是负，都把它 
写人 reg _ r ， 若为负，下次迭代不是从中减去除数而是加上除数。图 3.21 是不恢复余 
数除法器总体电路图。图中左下角的加法器和多路器是为了得到正确的余数而设置 
的，如果在你的除法电路中不需要余数的话，可以扔掉它们。 
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图 320 恢复余数除法器仿真结果 


不恢复余数除法器的 Verilog HDL 代码如下。 

module div — nonrestoring (a, b, start, clock, resetn, q, r, busy, 

ready f count); 

input [31:00] a; // dividend 

input [15:00] b; // divisor 

input start; // ID stage : start = is 一 div & ~busy; 

input clock,resetn; 

output [31:00] q; // quotient 

output [15:00] r; // remainder 

output busy; // cannot receive new div 

output ready; // ready to save result 

output [4:0] count; // for sim test only 

reg [31:00] reg_q; 

reg [15:00] reg—r; 

reg [15:00] reg 一 b; 

reg [4:0] count; 

reg busy,busy2,r—sign; 

always @ (posedge clock or negedge resetn) begin 

if (resetn == 0) begin 

count <= 5 f bO; // reset count 

busy <= 0; // reset to not busy 

busy2 <= 0; // for generating 1-cycle ready 
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图 3.21 不恢复余数除法器总体电路图 


end else begin 

busy2 <= busy; 
if (start) begin 

reg 一 r <= 16 # hO; 
r_sign <= 0; 
reg 一 q <= a; 
reg_b <= b; 
count <= 5 f bO; 
busy <= bl; 
end else if (busy) 


// not reset 

// 1-cycle delay of busy 
// start : 1 cycle only 
// reset remainder 
// sub first 
// load a 
// load b 
// reset count 
// set to busy 
begin // execution : 32 


cycles 


reg 一 r <= sub 一 add[15:00]; // partial remainder 
r 一 sign <= sub 一 add[16]; // if minus, add next 

reg_q <= {reg 一 q[30:00 】 sub 一 add[1 6】 }; // 1-bit q 
count <= count + 5 f bl; // count++ 
if (count == 5 f hlf) busy <= 0; // finish 


end 


end 


end 
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assign ready = —busy & busy2; // generate 1-cycle ready 
wire [16:00] sub—add = r 一 sign? {reg 一 r,q[31]} + {1’bO,reg 一 b}: 

{reg_r,q[31]}_ {1’bO,reg—b}; 

assign r = r 一 sign? reg—r + reg—b : reg—r; // adjust remainder 
assign q = reg 一 q; 
endmodule 

不恢复余数除法器 Verilog HDL 代码的仿真结果如图 3.22 所示。 



阁 3.22 不恢复余数除法器仿真结果 


3.4.3 带符号数不恢复余数除法器设计 

带符号数的除法要考虑被除数和除数的符号。如果两个数的符号相同，商为 
正，否则为负。带符号数除法最直接的算法是首先把它们都转换成正数，然后按照 
无符号数的不恢复余数除法算法求出商的绝对值，然后再根据被除数和除数的符号 
对商进行调整。 

本小节给出的算法略有不同。我们直接使用原始的被除数和除数进行计箅，因 
为不恢复余数除法算法本身就允许部分余数为负数。在无符号数的不恢复余数除法 
算法中，如果部分余数为负，下次计算要加上除数。现将该规则 改为： 如果部分余 
数（第一次为被除数）和除数的符号相同，则减去除数，否则加上除数。这样做的结 
果导致求岀的商为正数，最后还要根据符号对商进行调整。图 3.23 所示的是带符号 
数不恢复余数除法器的总体电路图。 
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r[15:00] q[31:00] 

图 3.23 带符号数不恢复余数除法器总体电路图 
带符号数不恢复余数除法器的 Verilog HDL 代码如下。 


module div 一 nonrestoring 一 signed (a,b,start f clock,resetn,q,r,busy, 

ready,count); 

input [31:00] a; // dividend 

input [15:00] b; // divisor 

input start; // ID stage : start = is—div & ~busy; 

input clock,resetn; 

output [31:00] q; // quotient 

output [15:00] r; // remainder 

output busy; // cannot receive new div 

output ready; // ready to save result 

output [4:0] count; // for sim test only 

reg [31:00] reg—q; 

reg [15:00] reg_r; 

reg [15:00] reg 一 b; 

reg [4:0] count; 

reg busy,busy2,sign,r—sign; 
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always @ (posedge clock or negedge resetn) begin 

if (resetn == 0) begin 

count <= 5^0; // reset count 

busy <= 0; // reset to not busy 

busy2 <= 0; // for generating 1-cycle ready 

end else begin // not reset 

busy2 <= busy; // 1-cycle delay of busy 
if (start) begin // start : 1 cycle only 

reg—r <= 16’hO; // reset remainder 

r 一 sign <= a [31]; // if signs diff, add 

sign <= a [31] " b[15]; // result sign 

reg 一 q <= a; // load a 

reg_b <= b; // load b 

count <= 5 / bO; // reset count 

busy <= l f bl; // set to busy 

end else if (busy) begin // execution : 32 cycles 
reg 一 r <= sub_add[15:00]; // partial remainder 

r 一 sign <= sub 一 add[16]; // if minus, add next 

reg 一 q[31:01] <= reg—q[30:00]; // shift left 

reg—q[00] <= ~sub_add[16]; // 1-bit quotient 

count <= count + 5 f bl; // count + + 

if (count == 5 f hlf) busy <= 0; // finish 

end 

end 

end 

assign ready = ~busy & busy2; // generate 1-cycle ready 
wire op—add = r_sign " reg 一 b[15]; // if signs diff f add 
wire [16:00] sub 一 add = op 一 add? 

{reg 一 r,reg 一 q[31]} + {reg 一 b[15],reg 一 b} : 
{reg_r,reg_q[31]} - {reg_b[15],reg 一 b}; 
wire [15:00] abs—b = reg 一 b[15]? 〜 reg—b + 16'bl : reg 一 b; 
assign r = r 一 sign? reg—r + absjb : reg—r; // adjust remainder 
assign q = sign? ~reg 一 q + 1 : reg—q; // adjust quotient 

endmodule 

带符号数不恢复余数除法器 Verilog HDL 代码的仿真结果如图 3.24 所示。 

3.4.4 Goldschmidt 除法算法 

设 a 和 b 均有 .lxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx 的格式（注意小数点)， 

即 1/2 彡 a，b < 1 ，以下介绍如何使用 Goldschmidt 算法计算 q = a/b 。 如果分式 

a x r 0 x n x r 2 X … X r n 一 i 

b x r 0 x n x r 2 x • • • x r n -i 

的分母趋向于 1 ，则分子趋向于 q 。 定义 (5 = 1 — b ， 则 0 < (5 彡 1/2, b = 1 — (5 。 
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阁 3.24 带符号数不恢复余数除法器仿真结果 


定义 x 0 = 

=a. 

yo = 

: b = 1 — (5 ， 

r 0 = 2 — y 0 = 

1 + 厶。 计算 

Xl : 

=X() 

X r 0 




yi = 

=yo 

x r 0 •' 

=(1 一 <5) x 

(1+<5) = 1 — 

S 2 

n = 

= 2 ■ 

一 yi = 

=1 + <5 2 



X 2 = 

: Xl 

x r , 




yi = yi 

X T\ 

=(1 — <5 2 ) x 

(1 + <5 2 ) = 1 

- S 4 

T2 = 

= 2 - 

一 y 2 : 

=1 + <5 4 




Xj+l — Xj X Tj 

yi+i = yi x rj = (1 — S 2 ') x (1 -f <5 2 ') = 1 — S 2>+1 

ri +1 = 2 - y i+1 = 1 + (5 2，+l 

直到 y i + i 接近于 1 为止。这时 Xi _ n 接近于 q 。 为什么 y i+1 — 1 ? 这是因为 y i + 丨= 
1一<5 2 ' +1 而 0<<5 彡 1/2 的原故。 

Goldschmidt 除法器总体电路图如图 3.25 所示。两个寄存器 reg _ a 和 reg _ b 开始时 
分别存放被除数 a 和除数 b ， 迭代过程中分别存放 Xi 和 yi 。 由于要满足1/2 ^ a , b < 
1，我们必须在该电路的外层对 a 和 b 进行预处理，对 q 进行善后处理。 
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图 3.25 Goldschmidt 除法器总体电路图 

以下是 Goldschmidt 除法器的 Verilog HDL 代码。注意小数点的位置。 

module goldschmidt (a,b,start,clock,resetn,q,busy,ready,count, 

reg 一 a,reg_b); • 

input [31:00] a; // dividend : fraction : .lxxx...x 

input [31:00] b; // divisor : fraction : .lxxx•..x 

input start; // ID stage : start = is 一 div & "busy; 

input clock,resetn; 

output [31:00] q; // quotient : x.xxxx..•x 

output busy; // cannot receive new div 

output ready; // ready to save result 

output [2:0] count; // for sim test only 

output [33:00] reg 一 a; // for sim test only 

output [33:00] reg 一 b; // for sim test only 

reg [33:00] reg—a; // 34-bit : x.xxxx...xx 

reg [33:00] reg 一 b; // 34-bit : 0.lxxx...xx 

reg [2:0] count; // 5 iterations 

reg busy,busy2; 

always @ (posedge clock or negedge resetn) begin 

if (resetn == 0) begin 

count <= 3’bO; // reset count 

busy <= 0; // reset to not busy 

busy2 <= 0; // for generating 1-cycle ready 

end else begin // not reset 

busy2 <= busy; // 1-cycle delay of busy 

if (start) begin // start : 1 cycle only 

reg—a <= {1 f b0 f a f 1 f bO}; // 0•lxxx...xO 
reg—b <= {l f bO,b,bO}; // 0.lxxx.••xO 
count <= 3 / bO; // reset count 

busy <= l'bl; // set to busy 

end else begin // execution : 5 iterations 
reg 一 a <= a68[66:33]; // x.xxx...x 
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reg—b <= b68[66:33]; // x.xxx...x 

count <= count + 3 f bl; // count++ 

if (count == 3'h4) busy <= 0; // finish 

end 

end 

end 

wire [33:00] b34 = _reg—b + l ， bl; // 2 - yi 

wire [67:00] a68 = reg_a ★ b34; // Ox.xxx..•xx 

wire [67:00] b68 = reg 一 b * b34; // Ox.xxx...xx 

assign ready = ~busy & busy2; // generate 1-cycle ready 

assign q = reg 一 a[33: 02】 + (reg 一 a[01] | reg_a [00]); // rounding 
endmodule 

图 3.26 是 Goldschmidt 除法器仿真 0.75/0.5 = 1.5 时的结果。被除数 0.75 用二 
进制数表示为 0.1100, 其小数部分即是图中的输入信号 a 。 除数 0.5 用二进制数表示 
为0.1000,其小数部分即是图中的输入信号 b 。 商 1.5 用二进制数表示为 1.100, 是图 
中的输出信号 q 。 我们可以看出 bi (图中的 reg _ b ) 逐渐趋向于1。 
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• count ( 0 厂 1 t ~ 2 t 3 X 4 ~ X 5X6) 

•O reg_a ( 000000000 X 180000000~X 240000000^( 2DOOOOOOO X 2FD00000Q X 2FFFD0000 X2FFFFFFFD^2FFFFFFFF) 
❸ reg_b ( 00000000000000060\ 180000000 X 1EOOOCXHX) X 1FE000000 X 1FFFEOOOO X^FFFFFFFEX 1FFFFFFFF) 


闬 3.26 Goldschmidt 除法器仿真结果 

迭代次数为 5 次，每次迭代包括一次乘法和一次加法。如果用 Wallace 树型乘法 
器，一次乘法可用两个加法周期完成。因此迭代部分需要5 x 3 = 15个周期。再加 
上最后的一个舍人周期， Goldschmidt 除法器总共需要16个周期。 

3.4.5 Newton-Raphson 除法算法 

Newton-Raphson 算法（以下简称为牛顿迭代算法）也使用乘法来代替除法运算。 
如果我们不用除法就能计算出 1 /b 的话，则 a/b = a x (1/ b )。 假设我们有一个函数 
f ( x )， 如何找出 x n , 使得 f ( x n )»0? 首先，我们猜测 x 0 ， 由 f ( x ) 在该点处的切线方 
程 y — f ( x 0 ) =厂 ( x 0 )(x — x 0 ), 找出使 y = 0的新的一点 x 卜则 xi 更加接近 x no 
—般地 ， y — f ( xj ) = f ( Xi)(x — Xj )， 令 y = 0，我们有新的一点 Xi+i = 
Xi —代〜)/广(〜)。重复上述过程，一直到 x n S 够精确为止。 
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令 f ( x ) = 1 /x 一 b , 则在 x = 1/ b 处 f ( x ) = 0。应用牛顿迭代公式，我们有： 

Xj-j-i ― Xj (2 一 Xjb) 

这样，我们能够用下述步骤实现 a / b : 

1) 把 b 移位，使其满足 0.5 彡 b < 1， gP，b = 0.1 xx ... xx 2 o 

2) 使用 b 的高若干位查 ROM 表得到 1/ b 的近似值 xo , 或者直接令 xo = 1.5。 

3) 迭代 Xi +〗 = Xi(2 - xjb ), 直到 x n 足够精确为止。 

4) 计算 axx n , 把结果反向移位以消除第一步造成的影响。 

设 Xi 精确到 p 位，这意味着 |(Xi — l / b )/( l / b )| < 2- p 。 通过推导，我们有 
|( x i+1 — l / b )/( l / b )| <2- 2 p ， B 卩，迭代一次精度是原来的两倍。 

图 3.27 所示的是 Newton - Raphson 除法器总体电路图。图中的3个寄存器 
reg _ a 、 reg _ b 和 reg _ x 分别存放被除数 a 、除数 b 和迭代变量 Xi 。 

a[3 1:0] b[3 1:0] 


clock 


阁 3.27 Newton-Raphson 除法器总体电路阁 

以下的 Verilog HDL 代码实现 Newton - Raphson 除法算法。注意小数点的位置。 

module newton (a, b, start, clock, resetn,q,busy,ready f count,reg_x); 

input [31:00] a; // dividend: fraction : .lxxx...x 

input [31:00] b; // divisor : fraction : •lxxx...x 

input start; // ID stage : start = is 一 div & —busy; 

input clock,resetn; 

output [31:00] q; // a/b: x.xxxxx...x 

output busy; // cannot receive new div 

output ready; // ready to save result 

output [1:0] count; // for sim test only 

output [33:00] reg 一 x; // for sim test only 

reg [33:00] reg—x; // 34-bit : xx•xxxxx•••xx 

reg [31:00] reg—a; // 32-bit: .lxxxx...xx 
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reg [31:00] reg 一 b; // 32-bit: .lxxxx...xx 

reg [1:0] count; // 3 iterations 

reg busy,busy2; 

// xi (2 一 xi b) 

wire [7:0] xO = rom(b[30:27]); 


always @ (posedge clock or negedge resetn) begin 


if (resetn 




0) begin 


count <= 2 f bO 


busy 


< 


0； 


busy2 <= 0; 
end else begin 

busy2 <= busy; 


// reset count 

// reset to not busy 

// for generating 1-cycle ready 

// not reset 

// 1 一 cycle delay of busy 


if (start) begin // start : 1 cycle only 

reg_x <= {2 f bl,xO,24'bO}; // 01.xxxxO...0 


reg 一 a <= a; 
reg—b <= b; 
count <= 2 f bO 
busy <= l f bl 


// 

// 


.lxxxx. . .X 
.lxxxx. . •X 


// reset count 
// set to busy 


end else begin // execution : 3 iterations 


reg_x <= x 6 8[66:33]; 
count <= count + 2 f bl 


// xx.xxxxx...x 

// count++ 


if (count == 2 f h2) busy <= 0; // finish 

end 


end 

end 

wire [65:00] bxi = reg_x * reg 一 b; // xx.xxxxx..•x 

wire [33:00] b34 = ~bxi[64:31] + 1 f b1; // x.xxxxx...x 

wire [67:00] x68 = reg 一 x ★ b34; // xxx•xxxxx•••x 

assign ready = "busy & busy2; // generate 1-cycle ready 

wire [65:00] d 一 x = reg 一 a * reg—x; // xx.xxxxx...x 

assign q = d_x[64:33] + {31’hO,|d—x[32:0]}; // rounding 
function [7:0] rom; 
input [3:0] b; 
case (b) 

4 f hO: rom = 8 f hf0; 

4 f h2: rom = 8 f hba; 

4 f h4: rom = 8 f h8f; 

h6: rom = 8 f h6c; 

4 f h8: rom = 8 f h4e; 

4 # ha: rom = Q f h35; 

4 f he: rom = 8 f hlf; 

4 f he: rom = 8 f hOc; 
endcase 
endfunction 
endmodule 


hi: rom = 8 f hd4 
4 f h3: rom = 8 f ha4 
4'h5: rom = 8 f h7d 
4'h7: rom = h5c 
4 f h9: rom = 8'h41 
4 7 hb: rom = 8 f h29 
4 # hd: rom = 8 f hl5 
4 f hf: rom = 8 f h04 
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图 3.28 Newton - Raphson 除法器仿 真结果 

牛顿迭代一共做了 3 次，每次迭代包括两次乘法和一次加法。如果用 Wallace 
树型乘法器，一次乘法可用两个加法周期完成。因此迭代部分需要3 X 5 = 15个 
周期。再加上开始的查表和最后的乘法及舍入， Newton - Raphson 除法器总共需要 
15+ 1 +2+ 1 = 19个周期。 

3.5 开方算法及 Verilog HDL 实现 

设有整数 d 。 开方运算可以归结为求 q 使 q 2 + r = d 且 r < 2 q 。 为什么需要条 
件 r < 2 q 呢？假设没有这个条件，则可永远令 q = 1 、 r = d - 1,这岂不是瞎耽误 
工夫吗？确实需要个条件，但为什么是 r <2 q 呢？因为我们要使 q 是最大可能的整 
数，所以我 ff J 有 q 2 + r = d < (q + 1 ) 2 = q 2 + 2 q + 1，即 r < 2 q + 1 。由于 d 和 q 
都是整数，所以我们有 r < 2 q 。 例如15 = 3 2 + 6。 

本节介绍几种开方求平方根的算法，包括“恢复 余数” 和“不恢复余数”开方算 
法、 Goldschmidt 开方算法以及 Newton-Raphson 开方算法，并给出所有这些算法的 
Verilog HDL 代码。 

3.5.1 恢复余数开方算法 

首先我们举例说明十进制数手算幵方算法。 设(1 = 30000000000,试计算 
q = VH 。 d 的两位对应 q 的一位，设 q = qiq2q3q4qsq6 。 以下是计算方法。 


图 3.28 示出的是用 Newton - Raphson 除法器计算 0.75/0.5 = 1.5 时的仿真结果。 
被除数 0.75 用十六进制表示为 0. C 0000000, 其小数部分即是图中的输入信号 a 。 
除数 0.5 用十六进制数表示为0.80000000，其小数部分即是图中的输入信号 b 。 商 
1.5 用二进制数表示为 1 . 100_0000_0000_0000.0000_0000_0000_0000,用十六进制表示 
为 C 0000000, 即图中的输出信号 q 。 我们可以看到 Xi (图中的 reg _ x ) 趋向于2，即 
1 /bo a 与 1/ b 相乘，得到 q (商)。 



rr bqll 二 
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二进制数开方也是一样，而且史简单 D 看例子 
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1 + 1 = 10 
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100 + 0= 100 
1001 X 1 = 1001 
1001 + 1 = 1010 
10101 x 1 = 10101 

余数 (6 io ) 


恢复余数开方算法的基本思路是从部分余数（开始时是 d 的最高两位，设 d 冇偶 
数位）减去 Q01 (即 Q<<2 + 1)。 Q 是部分平方根，开始设为0。如果够减，得到一 
位平方根1,把 Q 左移一位后加丨，部分余数是相减结果左移两位再拼接上 d 的高两 
位 ( d 也要左移两位)。如果不够减，把 Q 左移一位后加0,部分余数是被减数左移两 
位再拼接上 d 的高两位。 

图 3.29 是恢复余数开方电路总体图。寄存器 reg _ d 开始时存放 d ， 迭代时存放左 
移后的 d (每次左移两位)，因此该寄存器的输入端需要一个多路器。寄存器1*%4开 
始时清零，迭代时存放部分平方根（左移一位)，迭代结束时的内容是平方根 qc ^ 寄存 
器『#_1开始时也清零，迭代过程中保存部分余数，迭代结束时的内容是余数 r 。 

每次迭代时，把部分余数 ( reg _ r 中的内容）左移两位与 reg _ d 中的最高两位拼起 
来，作为被减数 使用； 同时，把部分平方根 ( reg - q 中的内容)左移两位与01拼起来， 
作为减数使用。相减结果若非负（加法器输出的最高位为0)，得到一位平方根1，把 
相减结果存入寄存器 r eg _ r ; 相减结果若为负（加法器输出的最高位为 1), 得到一位 
平方根0,把被减数存入寄存器 reg _ r 。 此处即为“恢复余数”的意义之所在。寄存 
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d[31 :00] reg_d[29:00]，00 clock 



r( 16:00] q[ 15:00] 

图 3.29 恢复余数开方电路总体罔 


器 regj ■的输人端也需要一个多路器，选择相减结果或被减数。恢复余数开方电路的 
Verilog HDL 代码如下。 

module root—restoring (d,load,clock,resetn,q,r,busy,ready,count); 

input [31:00] d; // radicand 

input load; // ID stage : load = is—sqrt & "busy; 

input clock,resetn; 

output [15:00] q; // root 

output [16:00] r; // remainder 

output busy; // cannot receive new sqrt 

output ready; // ready to save result 

output [4:0] count; // for sim test only 

reg [31:00] reg—d; 

reg [15:00] reg 一 q; 
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reg [16:00] reg 一 r; 
reg [3:0] count; 
reg busy f busy2; 

always @ (posedge clock or negedge resetn) begin 

if (resetn == 0) begin 

count <= 4 f bO; // reset count 

busy <= 0; // reset to not busy 

busy2 <= 0; // for generating 1-cycle ready 

end else begin // not reset 

busy2 <= busy; // 1-cycle delay of busy 

if (load) begin // load: 1 cycle only 

reg_d <= d; // load d 

reg_q <= 16 f hO; // reset root 
reg—r <= 16 f h0; // reset remainder 
count <= 4 f bO; // reset count 
busy <= 3/bl; // set to busy 

end else if (busy) begin // execution : 16 cycles 
reg 一 d <= {reg 一 d[29:00], 2’bO}; // shift 2-bit 
reg 一 q <= {reg 一 q[14: 00 】， - sub 一 out 【 17 】 }; // 1-bit q 
reg 一 r <= mux 一 out; // partial remainder 
count <= count + 4 f bl; // count++ 

if (count == hf) busy <= 0; // finish 

end 

end 

end 

assign ready = ~busy & busy2; // generate 1-cycle ready 

wire [17:00] sub 一 out = {reg 一 r[15:0],reg—d[31:30]} - {reg 一 q,2 # bl}; 

wire [16:00] mux 一 out = sub 一 out[17]? // restoring or not 

{reg—r[14:0],reg_d[31:30]}:sub—out[16:00]; 

assign q = reg—q; 
assign r = reg 一 r; 
endmodule 

图 3.30 是恢复余数开方电路的仿真 结果： C 0000000 = DDB 3 2 + 174 D 7。 

3.5.2 不恢复余数开方算法 

在恢复余数开方算法中，如果部分余数为负，则要恢复原来的余数并左移两 
位。设第 i 次迭代时部分余数为 Ri , 部分平方根为 Q ,。 恢复余数相当于 Ri + QiX 4 + 
1，左移两位相当于 （Ri + QiX 4+ l ) x 4。 由于部分余数为负， Q i+1 = QiX 2- h 0 o 
进入下一轮的迭代后，从部分余数中减去 Q i+1 X4+1 。 我们有以下的 等式： 

(Ri + Qi X 4 + 1) x 4 — ( Q i+ i X 4 + 1) 

= (Ri + Qi X 4 + 1) x 4 - (Qi x 8 + 1) 

= Ri X 4 + (Qi X 8 + 3) 

=Ri x 4 + ( Qi+i x 4 + 3) 
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图 3.30 恢复余数开方电路仿真结果 


这就是不恢复余数开方算法的中心思想【 9 ， 12 】。即，不管相减结果是正是负，都 
把它写人 reg _ r ， 若为负，下次迭代不是从中减去 Q 01 而是加上 Q 11。 以下的 C 程序 
实现不恢复余数开方算法。编译及运行结果紧跟着列出。 

// Non-Restoring Square Root, Copyright by Li Yamin, yamin@ieee.org 
#include <stdio.h> 

unsigned squart(unsigned d, int ^remainder) { 

unsigned q = 0; // q: 16-bit unsigned integer (root) 

int r = 0; // r: 17-bit integer (remainder) 

int i; 

for (i = 15; i >= 0; i-- ) { 

printf ( ?, %02d: q=%04x ,f / i / q); 
if (r >= 0) { 

r = ((r « 2) I ((d » (i+i)) & 3)) - ((q « 2) | 1); // - qOl 

printf ("r=( (r<<2) I ( (d»(i + i) )&3) )-( (q«2) | l)=%08x ",r>; 

} else { 

r = ((r « 2) I ((d » (i + i) ) & 3)) + ((q « 2) | 3); // +qll 

printf ("r= ( (r«2) | ( (d» (i + i) )&3) ) + ( (q«2) | 3>=%08x ", r); 

} 

if (r >= 0) {q = (q << 1) | 1; printf ( ,, q=q*2 + l=%04x\n ,f f q) ; } 

else {q = (q << 1) | 0; printf (•’q=q*2 + 0=%04x\n” ， q> ; } 

} 

if (r < 0) {r = r + ((q << 1) | 1); } // remainder adjusting 

*remainder = r; // return remainder 
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return(q) ; // return root 

} 

int main(void) { 

unsigned radicand,root; 
int remainder; 

printf("Input an unsigned hexedecimal number d = ”）； 

scanf (” ％ x w , Sradicand); 

root = squart(radicand, & remainder); 

printf ("hex : q = %08x f r = %08x f d = q*q + i: = %08x\n", 

root,remainder,root*root + remainder); 
printf( w dec : q = %08d, r = %08d, d = q*q + r = %08u\n", 

root,remainder, root*root + remainder); 

} 

[yamin@localhost cpu]$ gcc root 一 nonrestoring•c -o root 一 nonrestoring 

[yamin@localhost cpu]$ root 一 nonrestoring 

Input an unsigned hexedecimai number d = cOOOOOOO 

15: q=0000 r=( (r<<2) | ( (d>>(i + i) )&3) )-( (q«2) 11)=00000002 q=q*2 + l=0001 
14: q=0001 r=((r«2) | ( (d» (i + i) ) & 3) ) - ( (q«2) 11)=00000003 q=q*2 + l=0003 • 

13: q=0003 r=((r<<2) | ( (d» (i+i) ) & 3) ) - ( (q«2) q=q*2 + 0=0006 

12: q=0006 r=((r«2) | ( (d» (i + i) ) & 3) ) + ( (q«2) 13)=00000017 q=q*2 + l = 000d 

11: q=000d r=((r«2) | ( (d>> (i + i) ) & 3) ) - ( (q«2) 11)=00000027 q=q*2 + l=001b 

10: q=001b r=((r«2) | ( (d» (i-»-i) ) & 3) ) - ( (q«2) |l)=0000002f q=q*2 + l=0037 
09: q=0037 r=((r«2) | ( (d>> (i + i) ) & 3) ) - ( (q<<2) |l)=ffffffdf q=q*2 + 0=006e 

08: q=006e r=((r«2) | ( (d» (i + i) ) & 3) ) + ( (q«2) 13)=00000137 q=q*2 + l=00dd 

07: q=00dd r= ( (r«2) | ( (d»(i + i) )&3) )-( (q«2) 11)=00000167 q=q*2 + l=01bb 
06: q=01bb r=((r«2) | ( (d» (i + i) ) & 3) ) - ( (q«2) |l)=fffffeaf q=q*2 + 0=0376 

05: q=0376 r= ( (r«2) | ( (d»(i + i) )&3) ) + ( (q«2) 13)=00000897 q=q*2 + l = 06ed 

04: q=06ed r=((r«2) | ( (d>> (i + i) ) & 3) ) - ( (q«2) |l)=000006a7 q=q*2 + l = 0ddb 

03: q=0ddb r=((r«2) | ( (d» (i + i) ) & 3) ) - ( (q«2) |l)=ffffe32f q=q*2 + 0=lbb6 

02: q=lbb6 r=((r«2) | ( (d» (i + i) ) & 3) )-^ ( (q«2) |3)=fffffb97 q=q*2 + 0=376c 

01: q=376c r=((r«2) | ( (d>> (i + i) ) & 3) ) + ( (q«2) |3)=0000cc0f q=q*2 + l = 6ed9 
00: q=6ed9 r= ( (r«2) | ( (d» (i + i) ) & 3) ) - ( (q<<2) | 1) =000174d7 q=q*2 + l=ddb3 
hex : q = 0000ddb3, r = 000174d7, d = q*q + r = cOOOOOOO 
dec: q = 00056755, r = 00095447, d = q*q + r = 3221225472 

图 3.31 是不恢复余数开方器总体电路图（封面图的详细版)。图中左下角的加 
法器和多路器是为了得到正确的余数而设置的，如果在你的开方电路中不需要余数 
的话，可以扔掉它们。另外，如果做减法时 ci 是低电平有效，则可以将一 Q01 和 
+ Q 11 统一成图中的3个逻辑门的电路(加减法器少用了两位)。该电路使用的逻辑门 
很少，可用于低成本低功耗的嵌人式 CPU 的设计中。 

以下是不恢复余数开方电路的 Verilog HDL 源代码。 

module root 一 nonrestoring (d, load, clock, resetn, q, r, busy, ready, count); 

input [31:0] d; // radicand 
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d[3 1:00] reg.d[29:00],00 clock 



r[ 15:00] q[ 15:00] 

图 3.31 不恢复余数开方电路总体图 


input load; // ID stage : load = is_sqrt & ~busy; 

input clock, resetn; 

output [15:0] q; // root 

output [16:0] r; // remainder 

output busy; // cannot receive new sqrt 

output ready; // ready to save result 

output [4:0] count; // for sim test only 

reg [31:0] reg—d; 

reg [15:0] reg—q; • 

reg [17:0] reg 一 r; 

reg [3:0] count; 

reg busy, busy2, r—sign; 

always @ (posedge clock or negedge resetn) begin 

if (resetn == 0) begin 
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count <= 

4 ， b0; 

// 

busy <= 

0; 

// 

busy2 <= 

0; 

// 

end else begin 

// 

busy2 <= 

busy; 

// 

if (load) 

begin 

// 

reg—d 

<=d; 

// 

reg_q 

<=16 f hO; 

// 

reg 一 r 

<=16 f hO; 

// 

count 

<= 4 9 bO; 

// 

busy 

<=l f bl; 

// 


reset count 
reset to not busy 
for generating 1 一 cycle ready 
not reset 

1-cycle delay of busy 

load: 1 cycle only 

load d 

reset root 

reset remainder 

reset count 

set to busy 


end else if (busy) begin // execution : 16 cycles 
reg_d <= {reg 一 d [29 :0] , 2, bO}; // shift 2-bit 
reg—q <= {reg 一 q[14:0] ， ~add — sub[15 】 }; // 1-bit q 
reg_r[17:2] <= add_sub; // partial remainder 
reg_r[l] <= reg_d[31] 一 〆 reg_d[30]; // remainder 
reg 一 r[0] <= ^reg_d[30]; // remainder 

count <= count + 4 f bl; // count++ 

if (count == 4 f hf) busy <= 0; // finish 

end 

end 


end 

assign ready = ^busy & busy2; // generate 1-cycle ready 
wire [15:0] add_sub; 

// clasl6 (sub,a,b,ci,s); // active low for subtraction 

clasl6 as 「 reg 一 r[17],reg 一 r[15:0], reg 一 q, reg—d[31] |reg 一 d[30] f 

add 一 sub); 
assign q = reg—q; 
assign r = reg 一 r[17] ? 

reg—r[16:0] + {reg_q[15:0] , 1 f bl} : 
reg_r[16:0]; // adjust remainder 

endmodule 


以下是开方电路使用的先行进位加减法器。做加法时进位高电平有效，做减法 
时进位低电平有效。其中使用的模块 cla _16 已在本章开始处给出。 

module clasl6 (sub,a,b,ci,s) ; 

input sub; // 1- 0+ 
input [15:0] a,b; 

input ci; // active low for subtraction 
output [15:0] s; 
wire g—out,p_out; 

cla 一 16 cla (a,kT {16{sub}},ci,g—out,p—out,s 〉 ； 
endmodule 


图 3.32 是不恢复余数开方电路的仿真结果。试与 C 程序运行结果进行比较。 
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IK d ( COOOOOOO ) 


费 q ( 0000 X~0001 X~Q003~y 0006— X POOD X 001 B X 0037 006E XPODD ) 

必 r ( 00000 )T~00002 X 00003 X OOOOC^X 00017 "X 00027 X 0002 F X 000 BC )TToi37 ) 

-O busy _I 

HS> ready _ 

l-» count ( 0 飞 1 t ~ 2~\ 3 )C~A ~X 5 X 6 )T^~X 8 ) 


咖 resetn j 


k)ad 

clock 

» d 
费 q 
O r 

•O busy 
-O ready 









必 count ( 


( COOOOOOO 


〉 

( 01 BB X 0376 x 06ED X 0DDB X 1BB6 X 376C X 6ED9 X DDB3 

( 00167 X 0059C X 00897 X 006A7 X 01A9C X 06A70 X 0CC0F X 

174D7 

I 1 


1 


(9XAXBXCXDXEXFX 

0 


图 3.32 不恢复余数开方电路仿真结果 


3.5.3 Goldschmidt 开方算法 


设 l /4< d < 1, KP d = .lxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx 或 d = 
.01 xx xxxx xxxx xxxx xxxx xxxx xxxx xxxx 。 以下介绍如何使用 Goldschmidt 算法计算 

Vdo 如果分式 


d x ro x n x r2 X … x r n -i 

dxrjxrfxr ^ x ". 〆 !^ 

的分母趋向于1，即 rjxr ^ xr ^ x ... xrj 趋向于 1/ d 、 r 0 X rj X r 2 X … X r n 趋 
向于 y / V / d , 则分子趋向于 x /3。 定义 xo = do = d 。 通过査 ROM 表得到近似的 
r 0 « \/ Vd , 或者直接令 r G = 1 + (1 — d )/2。 然后使用下式进行迭代，直到分式的 
分母接近于1为止，这时的 d n » >/3。 

H = 1 + (1 - Xi )/2 

di+i = dj x rj 
Xj+i = Xj x 

以下我们说明为什么 x n — 1。由于 1/4 彡 d < 1 ，我们有 d = 1 -(5, 0 < S ^ 
3/4。令 r 。= 1 + <5/2 = 1 + (1 — d )/2, 则 xi = x。x i = (1 — (5) x (1 + S / 2) 2 = 
(1 — <5) x (1 + <5 + S 2 / 4 ) » (1 — <5) x (1 + <5) = 1 - (5 2 。 

— 般地 ， Ti = 1 + (1 — Xj )/2 « 1 + <5 21 /2，则 Xj+i = Xj x if = (1 — <5 2 ) x 
(1 + S 2 i / 2) 2 = (1 - S 2 ') x (1 + # + <5 2，+ '/4) « (1 -(5 2 ') x (1 +(5 2i ) = 1 - <5 2，+， 

因为 0 < 6 < 3/4,所以 x i+1 = 1 — # +l — 1, 并且每迭代一次精度增加一倍。 
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Goldschmidt 开方电路的总体图如图 3.33 所示。我们使用了 ROM 来得到勿。三 
个寄存器 reg _ r 、 reg _ d 和 reg _ x 分别存放 n 、 di 和 Xi 。 

d[31:0] 


clock 


q[31 ： 0] 

图 3.33 Goldschmidt 开方电路总体图 

以下是实现 Goldschmidt 开方算法的 Verilog HDL 代码。由于我们在说明为什么 
x n — 1时忽略了高阶项+(^ +1 /4,而在实际的运算中没有忽略，可能引起 Xi 彡1， 
因此我们在代码中调整了 Xi ， 使其永远小于1。 

module root 一 goldschmidt (d,start,clock,resetn,q,busy,ready,count. 



input [31:00] d; // radicand: .lxxx...x or .Olxx...x 

input start; // ID stage : start = is 一 sqrt & 〜 busy; 

input clock,resetn; 

output [31:00] q; // root : .lxxx...x 

output busy; // cannot receive new sqrt 

output ready; // ready to save result 

output [2:0] count; // for sim test only 

output [34:00] reg_x; // for sim test only 

reg [34:00] reg—d; // 35-bit : x.xxxx...xx 

reg [34:00] reg 一 x; // 35-bit : 0.lxxx...xx 

reg [34:00] reg_r; // 35-bit : x.xxxx...xx 

reg [2:0] count; // 5 iterations 

reg busy,busy2; 

wire [7:0] rO = rom(d[31:28]); 

always @ (posedge clock or negedge resetn) begin 

if (resetn == 0) begin 

count <= 3 f b0; // reset count 

busy <= 0; // reset to not busy 

busy2 <= 0; // for generating 1-cycle ready 

end else begin // not reset 
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busy2 <= busy; // 1-cycle delay of busy 
if (start) begin.// start : 1 cycle only 


reg_d <= { l f b0 f d f 2 f b0}; 
reg 一 x <= {1’bO, d, 2 f bO}; 
reg 一 r <= {1/bl, rO, 26 f hO}; 
count <= 3 r bO; 
busy <= l 〃 bl; 

end else begin // execution : 
reg_d <= d70[68:34]; 
reg 一 x <= x35; 


n; 


reg—r <= 
count <= count + 3 , bl 


if (count 




3 f h5) busy <= 


end 


// 1.xxxx...xO 
// reset count 
// set to busy 
5 iterations 
// x.xxx...x 
// x.xxx...x 
/ / x.xxx...x 
// count++ 

0; // finish 


end 

end 


wire [34:00] ri = 35’h600000000 - {2’bO,reg—x[33:1]}; 

wire [69:00] ci = ri * ri; // Ox.xxx..•xx 

wire [69:00] d70 = reg 一 d ★ ri; // 01.xxx..•xx 

wire [69:00] x70 = reg—x ★ ci[68:34]; // Ox.xxx...xx 

wire [34:00] x35 = {1 / b0,{34{x70[68]}}|x70[67:34]}; // !>=1.0 
assign ready = —busy & busy2; // generate 1 一 cycle ready 
assign q = reg_d[33:02] + {31’hO, <reg—d[01]|reg 一 d[00]>}; 
function [7:0] rom; // 1/d"{1/2} 

input [3:0] d; 
case (d) 


4^0: 

rom = 

8 f hfO; 

4 f h2: 

rom = 

8 f hba; 

4 f h4 : 

rom = 

8 f h8f; 

4^6: 

rom = 

8 f h6c; 

4 f h8: 

rom = 

8 f h4e; 

4 f ha: 

rom = 

8 f h35; 

V he : 

rom = 

8 f hlf; 

he : 

rom = 

8 f h0c; 


endcase 


4 f hi: rom = S r hd4 
4^ h3: rom = 8 f ha4 
h5: rom = 8 f hld 
4 f h7: rom = 8 f h5c 
4 f h9: rom = h41 

4 7 hb: rom = 8 f h2 9 
4 9 hd : rom = 8 # hl5 
4 7 hf: rom = 8 f h04 


endfunction 

endmodule 


图 3.34 给出 Goldschmidt 开方电路的仿真结果。第一个例子示出的是 d = 0.25, 
q = 0.5。0.25 是 d 所允许的最小值。由于它离 1.0 最远，所需的迭代次数也最多 （6 
次)。第二个例子是 d = 0.75 的情况，读者可以将它的输出与图 3.32 所示的整数开方 
结果进行比较。第二个例子只需4次迭代结果就出来了。如果要固定电路的迭代次 
数，当然要考虑最坏的情况，因此我们规定 Goldschmidt 开方电路需要6次迭代。 

每次迭代最费时间的是 Xj x n x ri (两次乘法)。即使我们采用 Wallace 树型乘法 
器，也至少需要4个加法器周期，加上开始的査表1个周期及最后舍人的1个周期， 
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取 resetn 



取 start 
» dock 

» d 

q 



-G> busy i 1 I • 

-G> ready _| 

必 count ( 0 X~ 1 X 2 X 3 ~ X 4 "X S X 6 ) 

• reg_x ( 000000000 X 1 00000000^ 1 E400Qo6o\ 304E22900 X3CE09P43CX 3FE245B97 X 3FFFF5A33 X 3FFFFFFFF) 




resetn 


start 






d 


•B> q 


00000000 X COOOOOOO X D800000(rx DD7C0005^X DDB3C^Y 


DDB3D743 



busy 

ready 


■O count ( 


0 


X 


i 


必 reg_x 




X 


3 


X 


4 


X 


5 


X 


6 


X 3CC000000 X3FDFC6B00X3FFFF3D2D X 

• mmrnmmm^ • _•■ %^瓤 ▲ ‘ ‘ ■■蛐 _ ■ ■ ■ i ^ “ • ■ ■ ■. _ ■ • ■■■ ■ ■■■ 


3FFFFFFFF 


阁 3.34 Goldschmidt 开方电路仿真结果 


总共需要26个周期。作为参考 ， IBM G 4 服务器的浮点部件采用 Goldschmidt 开方算 
法，对35位数据开方时也是需要26个周期 P 9] 。 

3.5.4 Newton-Raphson 开方算法 


设 1/4彡 d < 1,即， d = O.lxx • • • x 或 d = O.Olx • • • x , 计算 q = \/ H 。 参照 
Newton-Raphson 除法算法，令 f ( x ) = 1/ x 2 — d , 则在 x = l /\/5 处 f ( x ) = 0。应用 
牛顿迭代公式，我们有： 


Xi+1 



f (Xj) 

f’(Xi) 


= Xi (3 - x ? d )/2 


注意 Xj 是 1/ x / H 的近似值。经过 ri 次迭代，得到有足够精度的 l / x /3 的近似值\。 
后，可由» d x x n 算出。 

图 3.35 是 Newton-Raphson 开方电路总体图，寄存器 reg.d 和寄存器 reg_x 分别 
存放 d 和 Xi。Verilog HDL 代码如下。 


module root 一 newton (d,start,clock,resetn,q,busy,ready,count f reg—x>; 

input [31:00] d; // radicand: .lxxx...x or .Olxx.•.x 

input start; // ID stage : start = is—sqrt & ~busy; 

input clock,resetn; 

output [31:00] q; // root : .lxxx...x 
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dp 1:0] 



阁 3.35 Newton-Raphson 开方电路总体图 

output busy; // cannot receive new sqrt 

output ready; // ready to save result 

output [1:0] count; // for sim test only 

output [33:00] reg 一 x; // for sim test only 

reg [31:00] reg_d; // 32-bit: .xxxx...xx 

reg [33:00] reg_x; // 34 - bit: xx.lxxx...xx 

reg [1:0] count; // 2 iterations 

reg busy,busy2; 

wire [7:0] xO = rom(d[31:27]); 

always @ (posedge clock or negedge resetn) begin 

if (resetn == 0) begin 

count <= 2 9 bO; // reset count 

busy <= 0; // reset to not busy 

busy2 <= 0; // for generating 1-cycle ready 

end else begin // not reset 

busy2 <= busy; // 1-cycle delay of busy 

if (start) begin // start : 1 cycle only 

reg—x <= {2’bl,xO, 24'bO}; // 01•xxxxO...0 

reg_d <= d; // .lxxxx...x 

count <= bO; // reset count 

busy <= l f bl; II set to busy 

end else begin // execution : 3 iterations 

reg—x <= x68 [66:33] ; // x68/2 

count <= count + 2^bl; // count++ 

if (count == 2 f h2) busy <= 0; // finish 
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end 

籲 

end 

end 

// x」i + l} = x 一 i * (3 - x 一 i ★ x_i ★ d) / 2 

wire [67:00] x 一 2 = reg_x * reg—x; // xxxx•xxxx•••x 

wire [67:00] x2d = reg_d ★ x 一 2[67:32]; // xxxx.xxxx...x 

wire [33:00] b34 = 34 f h300000000 - x2d[65:32];// xx.xxxx...x 

wire [67:00] x68 = reg—x ★ b34; // xxxx.xxxx...x 

// q = d ★ x—n 

assign ready = 〜 busy & busy2; // generate 1-cycle ready 
wire [65:00] d_x = reg 一 d ★ reg—x; // xx.xxxx...x 

assign q = d—x[63:32] + {31 f hO, |d_x[31:0]}; // rounding 

function [7:0] rom; // 1/d"{1/2} 
input [4:0] d; 
case (d) 


5 f h08: rom = 8 f hf0 
5 / hOa : rom = 8 f hbe 
5 f hOc : rom = 8 f h99 
5 f hOe : rom = h7c 
5 f hlO: rom = S f h64 
5’hl2: rom = 8’h50 
5 f hl4: rom = Q r h3f 
5 ， hl6: rom = 8^31 
5 # hl8: rom = 8 / h24 
5 f hla : rom = 8 f hl9 
5 f hlc: rom = 8 f hOf 
5 f hle: rom = 8 f h06 


5 f h09: rom = hd5 
5 7 hOb : rom = 8 f hab 
5 f hOd: rom = 8 f h8a 
5 f hOf : rom = 8 f h6f 
5 f hll: rom = 8 f h5a 
5 f hl3: rom = 8 f h47 
5 f hl5: rom = 8 f h38 
5 r hl7 : rom = 8 / h2a 
5’hl9: rom = 8’hle 
5 f hlb : rom = hl4 
5 f hid: rom = 8 f hOa 
5 f hlf: rom = 8 f h02 


default : rom = hff; 


endcase 


endfunction 

endmodule 


我们为 xo 准备了 8 位初值但只使用了 5 位地址。实际上为了得到 X0 的8位准 
确初值，5位输入地址是不够的，有兴趣的读者可以探讨一下到底需要几位地址才 
行。 Newton - Raphson 开方电路仿真结果如 3.36 圈所示。 

每次迭代所需的周 期为： 3次乘法需6个周期，一次减法需1个周期。3次迭代 
共需21个周期。最后还有一次乘法及一次舍人，以及开始处的查表，总共需25个 
周期。实际上，大多数的 CPU 也均是采用3次迭代。 

表 3.5 比较了 Goldschmidt 和 Newton - Raphson 算法实现除法和开方操作时需要的 

时钟周期数量。如果将这些算法用于浮点数操作，最后的一次舍人可以不做，因为 
反正在浮点部件中最后总是有一次舍入操作（规格化)。另外， Goldschmidt 开方算法 
中有三个数相乘且其中的两个数相同，我们可以想办法用三个加法周期完成。这样 
的话， Goldschmidt 开方算法只需1 + 6 X 3 + 1 =20个时钟周期。我们将在浮点部 
件 FPU 的设计中使用 Newton - Raphson 算法完成浮点除法和浮点开方运算。 
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resetn 



q ( 00000000 X 01FDFC0l"X FFF90216~X FFFEFFCB")( FFFFOOOO 


必 busy I I_ 

O ready j 1 I 

• count ( 0 t ~ 1 t 2 \ 3 — \ 0 1 X 2 ) 

O reg_x ( 000000000 X 1020000C)0~X 0FFFB020BX 10000FFCC X 100010001 ) 



必 q ( 00000000 X DB000000 X DDA73E00 X DDB3D630 X DDB3D743 


•O busy _I I_ 

O ready \ | | 

O count ( 0 1 X 2 X 3 X 0 X 1 2 ) 

reg_x ( OOOOOOOOO^X 1 24000000^( 1 2789A800^( 1 279A72BE X 1 279A7459 ) 


阁 3.36 Newton-Raphson 开方电路仿真结果 


表 3.5 Goldschmidt 和 Newton-Raphson 辟法所需时钟周期数量 


算法 

除法 

开方 

Goldschmidt 

5 x 3 + 1 = 16 

1 + 6 X 4 + 1 =26 

Newton-Raphson 

1+3x5 + 2+1 = 19 

1+3X7 + 2+1 =25 


3.6 习题 

1. 试设计一个32位的加减法器，增加一个输出信号 v 来指出结果是否上溢。 

2 . 除了本章描述的先行进位加法器，调查还有哪些其他结构的先行进位加法器。 

3. 用 Verilog HDL 实现迭代方法的乘法操作。 

4. 我们已经讨论了 a x b 的各种算法。若 b == a , 则 a x b = a 2 。 试考虑平方运 
算的特殊性以及如何利用这些特殊性加快运算速度并减少所需全加器的数量。 

5. 试考查 Booth 乘法算法并用 Verilog HDL 加以实现。 

6 . 试证明 Goldschmidt 和 Newton - Raphson 除法算法每迭代一次精度增加一倍。 

7. 试用 C 语言写一个程序，用来计算 Goldschmidt 或 Newton - Raphson 除法电路中 
ROM 应存放的数据。 

8 . 出道数 学题： 证明十进制手算开方算法的正确性。 

9. 试证明图 3.31 电路中使用右边3个逻辑门的正确性。 
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10. 图 3.33 中使用了三个寄存器。试设计一个电路，不使用 ROM ， 且只使用两个 
寄存器来实现 Goldschmidt 开方算法。 

11. 考查什么是 SRT 除法和开方算法，并使用 Verilog HDL 实现 SRT 除法或开方算 
法(要求 ： Radix ^ 4) 0 

12. 试考查 CORDIC (Coordinate Rotation Digital Computer ) 算法以及如何用电路实 
现初等超越函数（例如三角函数、指数函数、对数函数等）的运算。 
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一个 CPU 的指令系统 (Instruction Set) 定义该 CPU “所能做的”或者“应该做的” 
工作。“所能做的”意思是告诉系统软件（比如编译器）设计者该 CPU 能做什么事情 
(软件设计者使用 它)； “应该做的”意思是告诉硬件设计者在设计 CPU 时应该让 CPU 
完成的任务(硬件设计者实现它)。也就是说，指令系统是软件设计者和硬件设计者之 
间能对上话的一个“接口 ”，如图 4.1 所示。 



图 4.1 指令系统是硬件与软件之间的接口 

4.1 指令系统结构 

CPU 不能直接执行用高级语言编写的程序。我们需要一个编译器 （ Compiler ) 把 
这个程序转换成计算机可执行的二进制代码。二进制代码主要包括指令和数据。指 
令系统结构 ISA (Instruction Set Architecture ) 定义指令的格式、指令的意义、操作数 

的类型和指令能访问的寄存器与存储器。 

目前常用的指令系统结构有 Intel 的 x 86、 SGI / MIPS 的 MIPS 32/ MIPS 64 、 IBM 
的 PowerPC、SUN Microsystems 的 SPARC、DEC 的 Alpha、HP 的 HP-PA 等。除了 
x86 , 上述指令系统结构均属于 RISC 类型。 

4.1.1 操作数类型 

指令的主要任务是对操作数进行计算。操作数有不同的类型及相应的长度（二进 
制位数)。表 4.1 列出了常用的数据类型。表中也列出了 C 语言使用这些数据类型时 
的关键字。我们将在第9章介绍浮点数。 . 
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表 4.1 常用的数据类型 


数据类型 

位数 

数值范围 

C 语言中的对应 

字节 

8 

-128 〜+127 

signed char 

无符号字节 

8 

0〜255 

unsigned char 

半字 

16 

-32 768 〜+32 767 

short int 

无符号半字 

16 

0〜65 535 

unsigned short int 

字 

32 

-2 147483 648 〜+2 147483 647 

int 

无符号字 

32 

0 〜 4294 967 295 

unsigned int 

单精度浮点数 

32 


float 

双精度浮点数 

64 


double 


4.1.2 数据在存储器中的存放方法 


存储器是以字节为单位编址的。 一 个字有4个字节，它在存储器中的存放方法 
有两种 ： Little Endian 和 Big Endian , 如图 4.2 所示。 Ox 表示是十六进制。 


int n = 0x12345678; int n = 0x12345678; 


字节地址 

存储器 

字节地址 

存储器 

xxxxxxx3: 

0x12 

xxxxxxx3: 

0x78 

xxxxxxx2 : 

0x34 

xxxxxxx2: 

# 

0x56 

xxxxxxx1 : 

0x56 

xxxxxxxl: 

0x34 

xxxxxxxO: 

0x78 

xxxxxxxO: 

0x12 


字节 


(a) Little Endian 


字节 


(b) Big Endian 


图 4.2 数据在存储器中的存放方法 

图中的字 n = 0 x 12345678,它有4个字节，从高到低依次为0 x 12, 0 x 34, 0 x 56 
和0 x 78。在 Little Endian 方式中，低字节放入低地址单元，高字节放入高地址单元。 
而 Big Endian 则相反，高字节放入低地址单元，低字节放入高地址单元。以下的 C 
程序是利用地址指针来判断数据在存储器中是如何存放的。 

main () { 

int n = 0x12345678; 
if (*(char *)&n == 0x78) 

printf("little endian\n"); 
else printf("big endian\n M ); 

} 

如果读者不怎么熟悉指针类型，也可使用 union 来判断，见下面的 C 程序 。一 
个 union 中的所有变量共有一个实体，即一个数据可用不同的方式来访问，就像一个 
人有好多名字一样。 
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main () { 

union { 

int intword; 

char characters[sizeof (int)]; 

} u; 

u.intword = 0x12345678; 

if (u.characters[sizeof (int) - 1] == 0x12) 

printf("little endian\n ”）； 
else printf《’’big endian\n"); 

} 

# 

不管是 Little Endian 还是 Big Endian , 我们说图 4.2 中 一 个字在存储器中的存放 
是地址对准的。 g 卩，4个字节有相同的字地址、否则，我们说地址没对准。半字也 
有地址对准的问题，但字节没有这个问题，如图 4.3 所示。 

字节地址的低 3 位 

Big Endian: 0 1 2 3 4 5 6 7 

Little Endian: 7 6 5 4 3 2 1 0 


字节 字节 

字节 字节 

字节 字节 

字节 字节 

半字 

半字 

半字 

半字 

字/单精度浮点数 

字/单精度浮点数 

双精度浮点数 


图 4.3 地址对准 

有些 ISA 允许没对准的数据存放。如果不允许但出现了数据没对准的情况，比 
如访问一个字时，地址的最低两位不是 0, 则硬件应该产生异常信号来通知 CPU 。 

4.1.3 指令类型 


CPU 执行指令时必须首先把指令从存储器中取来。 CPU 中有一个程序计数器 
PC (Program Counter )。 取指令时使用 PC 作为存储器的地址。不同的 ISA 有不同的指 

令系统。一般而言，我们把所有的指令分为以下8种类型。注意，以下括号中出现 
的指令助记符采用了意义比较明显的一般的符号，而并不是针对哪一种特定的 CPU 
的指令系统。 


1. 算术运算类型 

算术运算类型通常是指对整数的运算。基本的运算包括加 （ add )、 减 （ sub )、 乘 
( mul )、 除 (div) 等。 


1 字节地址去掉最低两位就是字地址。 
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2. 逻辑运算类型 

基本的逻辑运算只有 3 种： 与 （ and )、 或 (or) 和非 （ not )， 但大多数指令系统不提 
供 not 指令，而是用异或 (xor) 来代替 not 。 


3. 移位操作类型 

移位操作分左移和右移两种。左移 （ shl ) 是把操作数向左移若干位，右边空出的 
位填0。右移分为逻辑右移 （ shr ) 和算术右移 （ shra ) D 逻辑右移在左边空出的位填0。 
算术右移在左边空出的位填右移前的操作数的最高位，相当于符号扩展。除了以匕 
三种移位指令，还有循环左右移位以及连同进位位 C 的（循环）左右移位等。 

4. 存储器访问类型 


存储器访问指令有取存储器数据 ( load ) 和存存储器数据 ( store ) 两种。 load 指 
令根据计算出的存储器地址从存储器读出数据，然后把数据写入 CPU 内部的寄存 
器。 store 指令则相反，把寄存器中的数据写入存储器。这两种指令一定会出现在 
RISC 类型的 ISA 中，而 CISC 类型的 ISA 可能会把 load / store 操作合并在运算类型的 
指令中。 load 和 store 指令可以搬运的数据类型有字节、半字、字（单精度浮点数）和 
双字（双精度浮点数)等。字节和半字还有扩展的问题。 

5. I/O 访问类型 

I/O 指令访问 I/O 端口，有读 I/O 端口 （i 叩 ut) 指令和写 I/O 端口 （ output) 指令。 
与存储器访问指令不同， output 指令往一个端口写入的可能是控制信息，而 input 指 
令从相同的端口读出的可能是状态信息。 I / O 访问指令只出现在具有分开的 I / O 空间 
和存储器空间的 ISA 中，而大多数 RISC 类型的 1SA 使用单一的地址空间，把其中的 
一 部分空间分给 I/O, 同样使用 load/store 指令来访问它们。我们称这种方式具有存 
储器映像的 I / O 空间。 

6. 转移控制类型 

转移控制类型的指令有以下几种。条件转移 （ beq 、 bne 等）指令判断条件是否成 
立。若成立， 则转移 到目标地址去执行。对 C 语言程序中的 if 语句进行编译时会用 
到这些指令。目标地址可以通过计算得出，比如 PC 加上一个带符号的偏移量。跳转 
( jump ) 指令无条件地转移到目标地址去执行。目标地址可以在指令中明确给出，也 
可以是寄存器中的内容。子程序调用 （ call) 指令跳转到子程序去执行。跳转的同时要 
把返回地址保存在某个地方，以便从子程序返回时使用。返回 （ return ) 指令把 call 指 
令保存的返回地址写入 PC ， 实现从子程序的返回。 

7. 浮点运算类型 

浮点 （Floating Point) 运算类型指令对浮点数进行运算，例如：浮点加 （ fadd >、 浮 
点减 （ fsub )、 浮点乘 （ fmul )、 浮点除 （ fdiv )、 浮点开方 （ fsqrt )、 整数与单精度浮点数之 
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间的转换 ( i2f 和 f2i )、 整数与双精度浮点数之间的转换 ( i2d 和 d2i )、 单精度浮点数与 
双精度浮点数之间的转换 （ f2d 和 d2f ) 等。 


8. 系统控制类型 

系统控制类型指令主要包括对 CPU 的状态寄存器和控制寄存器的读写、操作系 
统的调用及异常或中断处理程序的调用和返回等。 

4.1.4 指令结构 


目前常用的指令结构有以下三种： 

1) 堆栈 （ Stack) 结构： 两个操作数总是在堆栈的栈顶。 

2) 累加器 （ Accumulator) 结构： 一个操作数总是在累加器中。 • 

3) 通用寄存器 （General Purpose Register) 结构： 

(1) 寄存器-存储器 结构： 一个操作数在寄存器中，另一个在存储 器中; 

(2) 寄存器•寄存器 结构： 两个操作数都在寄存器中。 


栈顶指针 


CPU 存储器 



(a) 堆栈结构 


CPU 存储器 



( b ) 累加器结构 


CPU 存储器 



(c) 寄 存器- 存储器结构 


CPU 存储器 



( d ) 寄 存器- 寄存器结构 


图 4.4 指令结构 


图 4.4 是以上三种指令结构在执行计算类型指令时的示意图。图中的 ALU 是负 
责计算的电路。堆栈的操作主要有压入 （ Push) 和弹出 （ Pop) 两种。它有一个栈顶指 
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针，通常命名为 SP (Stack Pointer), 指出当前栈顶的位置。压入和弹出操作自动修改 
栈顶指针。堆找具有后进先出 (Last-In First-Out) 或者先进后出 (First-In Last-Out) 的特 

点，就像往玻璃试管中放硬币似的 2 。 

累加器是一个特殊的寄存器，对它的访问隐含在指令的操作码中。通用寄存器 
合在一起称为寄存器堆。现在的 CPU 的通用寄存器个数从十几个到上百个不等。对 
哪个寄存器进行访问，要在指令中明确指出来。 

表 4.2 给出了这三种指令结构实现 Z = X + Y 的指令代码，其中X、 Y 和 Z 均 

在存储器中。 

表 4.2 实现 Z = X + Y 的三种指令结构的指令代码 


在堆栈结构的代码中，前两条指令把存储器操作数压人堆 栈中； 第三条指令弹 
出栈顶的两个操作数、相加、结果再压入 堆栈； 第四 i 指令弹出栈顶的数据，把它 
存人存储器。在累加器结构的代码中，第一条指令把存储器操作数取到累加 器中； 
第二条指令把累加器中的操作数与存储器操作数相加，结果存入累 加器； 第三条指 
令把累加器的数据存入存储器。在寄存器•存储器结构的代码中，第一条指令把存储 
器操作数取到 rl 寄存器中（当然也可以使用别的寄存器，寄存器号要在指令中明确 
给 出)； 第二条指令把 rl 寄存器中的操作数与存储器操作数相加，结果存入 rl 寄存 
器（如果是3操作数指令，也可指定其他的寄存 器)； 第三条指令把 rl 寄存器的数据 
存入存储器。在寄存器-寄存器结构的代码中，前两条指令把存储器操作数分别取到 
rl 和 r2 寄存 器中； 第三条指令把 rl 和 r2 寄存器中的操作数相加，结果存人 r3 寄存 
器； 第四条指令把 r3 寄存器的数据存入存储器。 

Java 虚拟机 JVM 的 Bytecode 指令具冇堆栈结构，6502和 Z80 的指令属于累加 
器结构， x86 是典型的寄存器•存储器结构，而 RISC 类型的 CPU 均具有寄存器-寄 
存器结构，有时也称 Load/Store 结构，其含义是只有 Load 和 Store 指令才访问存储 
器，计算类指令均使用寄存器操作数。 

4.1.5 寻址方式 

寻址方式 (Addressing Modes) 是指通过什么样的手段得到操作数。操作数可能在 
累加器或堆栈中。这时不需要在指令中明确指出，因为它们已经隐含在指令的操作 
码中了。除此之外，操作数也吋能在寄存器或者存储器中，其至在指令本身中。 

2 玻璃试管一般足用来做化学实验的.不应把它当存钱罐用^ 


寄 存器- 寄存器结构 
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1. 寄存器操作数及立即数寻址 

1) 寄存器操作数 寻址： 操作数在寄存器堆中（变量)。 例如： 

add r3, rl, r2 ; r3 < — rl + r2 

2) 立即数寻址：立即数 （ Immediate ) 在指令本身中给出 （常 数)。例如： 

參 

addi rl f rl f -1 ; rl < — rl - 1 

2. 存储器操作数寻址 

1) 直接 寻址： 直接在指令中给出存储器地址。 例如： 

add r3, rl, [0x1234] ; r3 <-- rl + Memory[0x1234] 

2) 寄存器间接 寻址： 寄存器的内容是存储器地址。 例如： 

add r3, rl, (r2) ; r3 < 一- rl + Memory[r2] 

3) 偏移量 寻址： 寄存器的内容与偏移量相加的结果是存储器地址。 例如： 

add r3, rl, 0x1234 (r2) ; r3 < — rl + Memory[0xl234+r2] 

4.2 mips 指令格式和通用寄存器定义 


MIPS 指令系统结构有 MIPS 32 和 MIPS 64 两种。本书的指令选自 MIPS 32[ 22 , 23 , 24】 

4.2.1 MIPS 指令格式 


MIPS 所有的指令均为32位。图 4.5 给出 MIPS 指令的3种格式。 op 是指令码。 


R 类型 


I 类型 


J 类型 


31 26 25 21 20 16 15 11 10 6 5 0 


op 

rs 

rt 

rd 

sa 

ftinc 

6 位 5 位 5 位 5 位 5 位 

31 26 25 21 20 16 15 

6 位 

0 

op 

rs 

rt 

immediate 

6 位 5 位 5 位 16 位 

31 26 25 

0 

op 

address 


6 位 26 位 


图 4.5 MIPS 指令格式 

R 类型指令的 op 为0,具体操作由 flmc 指定。 rs 和 rt 是源寄存器号， rd 是目的 
寄存器号。只有移位指令使用 sa 来指定移位位数。 I 类型指令的低16位是立即数， 
计算时要把它扩展到32位。依指令的不同，有零扩展和符号扩展两种。零扩展是把 
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32位的高16位置成0;符号扩展是把高16位的每一位置成与立即数最高位相同的 
值，即保持立即数的正负符号不变。 J 类型的指令格式最简单，右边的26位是字地 
址，用于产生跳转的目标地址。 

4.2.2 MIPS 通用寄存器 

MIPS 指令中的寄存器号 （ rs 、 rt 和 rd ) 有5位，因此它能访问2 5 = 32个寄存 
器。表 4.3 列出了这32个寄存器的名称和它们的用途。 

表 4.3 MIPS 通用寄存器 


寄存器名 

寄存器号 

用途 

Szero 

0 

常数 0 

Sat 

1 

汇编器专用 

$v0 〜 $vl 

2 〜 3 

表达式计算或者函数调用的返回结果 

$a0 〜 $a3 

4 〜 7 

函数调用参数 1 〜 3 

$t0 〜 $t7 

8〜15 

临时变量，函数调用时不需要保存和恢复 

$s0 〜 $s7 

16〜23 

函数调用时需要保存和恢复的寄存器变量 

$t8 〜 $t9 

24〜25 

临时变墩，函数调用时不需要保存和恢复 

$k0 〜 Ski 

26〜27 

操作系统专用 

$gp 

28 

全局变 董指针 (Global Pointer) 

$sp 

29 

堆栈指针 (Stack Pointer) 

Sfp 

30 

帧指针 (Frame Pointer) 

$ra 

31 

返回地址 （Return Address) 


有两点需要特别 注意： 第一，0号寄存器的内容永远是0。第二，31号寄存器用 
来保存返回地址。表 4.3 虽然给出了使用这些寄存器的一些约定，但除了以上两点， 
这些寄存器并无本质的区别。因此，在以后的描述中，我们不使用带有$的寄存器 
名，而是直接在 r 后面加寄存 器号： r 0, rl , •…， r 31。 

4.3 MIPS 指令和 ALU 设计 

4.3.1 本书 CPU 可执行的 MIPS 指令 

本小节并不介绍所有的 MIPS 指令(那不是本书的目的)，而只是介绍在本书中的 
CPU 能够执行的指令。我们选取若干典型的 MIPS 指令来描述 CPU 逻辑电路的设计 
方法。表 4.4 列出了其中的整数指令以及它们的格式和意义。 

以下我们简要介绍这些指令。前5条指令具有相同的格式，只是操作不 同：它 
们分别完成加、减、与、或和异或运算。 

add/sub/and/or/xor rd, rs, rt # rd < —— rs op rt 
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表 4.4 20 条 MIPS 整数指令 


指令 

| [31:26] 

[25:21] 

[20:16] 

[15:11] 

[10:6] 

[5:0] 

意义 

add 

000000 

rs 

rt 

rd 

00000 

100000 

寄存器加 

sub 

000000 

rs 

rt 

rd 

00000 

100010 

寄存器减 

and 

000000 

rs 

rt 

rd 

_ _ J 

00000 

100100 

寄存器与 

or 

000000 

rs 

rt 

rd 

00000 

100101 

寄存器或 

xor 

000000 

rs 

rt 

rd 

00000 

100110 

寄存器异或 

sll 

000000 

00000 

rt 

rd 

sa 

000000 

左移 

srl 

000000 

00000 

rt 

rd 

sa 

000010 

逻辑右移 

sra 

000000 

00000 

rt 

rd 

sa 

000011 

算术右移 

jr 

000000 

rs 

00000 

00000 

00000 

001000 

寄存器跳转 

addi 

001000 

rs 

rt 

immediate 

立即数加 

andi 

001100 

rs 

rt 

immediate 

立即数与 

ori 

001101 

rs 

rt 

immediate 

立即数或 

xori 

001110 

rs 

rt 

immediate 

立即数异或 

lw 

100011 

rs 

rt 

offset 

取整数数据字 

sw 

101011 

rs 

rt 

offset 

存整数数据字 

beq 

000100 

rs 

rt 

offset 

相等转移 

bne 

000101 

rs 

rt 

offset 

不等转移 

lui 

001111 

00000 

rt 

immediate 

设置高位 

• 

J 

000010 

address 

跳转 

jal 

000011 

address | 

调用 


其中， rs 和 rt 是两个源操作数的寄存器号， rd 是目的寄存器号。注意它们在汇编指 
令及指令格式中的位置。一般我们用分号表示注释部分，但 MIPS 汇编语言使用#。 

sll/srl/sra rd, rt, sa # rd < -一 rt shift sa 

这是 3 条移位指令 (Shift Left/Right Logical / Arithmetic )，5 位的 sa (Shift Amount ) 指定 

移位的位数。我们已经在第 2 章详细描述了这3种移位操作并给出了相应的 Verilog 
HDL 代码。 

lui rt, imm # rt <——imm << 16 

lui (Load Upper Immediate ) 指令把 16 位立即数 imm 左移 16 位，存入 rt 寄存器。它与 
ori 指令合作，可以为一个32位的寄存器赋任 意值： lui 赋高16位， ori 赋低16位。 

addi rt, rs, imm # rt < -- rs + imm (符号 扩展） 

addi (Add Immediate ) 是立即数的加法指令。注意目的寄存器号是 rt , 立即数要符号扩 
展到32位。因为是符号扩展，因此 MIPS 指令系统中没有类似于 subi 这样的指令。 
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andi/ori/xori rt f rs f imm # rt < — rs op imm (零扩展） 

这 3 条是逻辑操作指令 （ And / Or/Xor Immediate ) , 因此立即数要零扩展。 

# 

lw rt, offset(rs) # rt < -一 memory[rs + offset] 

lw (Load Word ) 是一条取存储器字的指令。寄存器 rs 的内容与符号扩展的 offset 相 
加，得到存储器地址。从存储器取来的数据存入 rt 寄存器。注意， offset 就是前面讲 
的立即数。 

sw rt, offset(rs) # memory[rs + offset] < —— rt 

sw (Store Word ) 是一条存字的指令，与 lw 方向相反，把 rt 寄存器的内容放入存储 
器。存储器地址的计算与 lw 相同。 

beq rs, rt, label # if (rs == rt) PC <-- label 

beq (Branch on Equal ) 是 一 条条件转移指令。当寄存器 rs 的内容与寄存器 rt 的内容相 
等时，转移到 label 。 如果程序计数器 PC 是 beq 指令的地址，则 label = PC + 4 + 
offset << 2。 offset 左移两位导致 PC 的最低两位永远是0,这是因为 PC 是字节地址 
而一条指令要占4个字节。 offset 是要符号扩展的，因此 beq 能实现向前和向后两种 
转移。 


bne rs, rt, label # if (rs != rt) PC <-- label 

与 beq 类似，但 bne (Branch on Not Equal ) 是在两个寄存器的内容不相等时转移。 

j target # PC <—— target 

j ( Jump ) 是一条跳转指令。 target 是跳转的目标地址，32位，由3部分 组成： 最高4 
位来自于 PC + 4的高4位，中间26位是指令中的 address ,最低两位为0。这条指 
令在生成目标地址时不需要任何电路进行计算，只需把3部分地址拼接起来就行。 
以下的两条指令也不需要计算。 


jal target # r31 <—— PC + 8; PC <—— target 


jal (Jump and Link ) 指令与 j 类似，但要把返回地址保存在 r 31 中。即 jal 是子程序 
调用指令。 jal 下一条指令的地址是 PC + 4,为什么返回地址是 PC + 8?这是因为 
MIPS 指令系统实现流水线的延迟转移功能，详见第8章。注意，寄存器号31是约 . 
定好的，该号码并不出现在指令中。因此在设计电路时，应当由硬件为 jal 指令产生 
这个号码。 

jr rs # PC <—— rs 

jr (Jump Register ) 也是一条跳转指令，它把 rs 寄存器的内容写入 PC 。 如果指定 rs 为 
31,则 jr 是从子程序返回的指令。 

表 4.5 是我们的 CPU 能执行的异常处理、 TLB 管理及浮点指令。有关这些指令 
的意义及实现，我们将在以后相关章节描述。 
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表 4.5 MIPS 中断和异常处理、 TLB 管理以及浮点运算指令 


指令 

[31:26] 

[25:21] 

I [20:16] I 

[15:11] 

[10:6] 

[5:0] I 

意义 

syscall 

000000 

00000 

00000 

00000 

00000 

001100 I 

系统调用 

eret 

010000 

10000 

00000 

00000 

00000 

011000 

从异常返回 

tlbwi 

010000 

10000 

00000 

00000 

"ooooo 

000010 

写指定的 TLB 项 

tlbwr 

010000 

10000 

00000 

00000 

00000 

000110 

写随机的 TLB 项 

mfcO 

010000 

00000 

rt 

mm 

00000 

000000 

取控制字 


010000 

00100 

WEM 

KB 

00000 

000000 

存控制字 


110001 

m 

mm 

offset 

i 

取浮点数据字 


111001 

mm 

mm 

offset 1 

存浮点数据字 

add.s 

010001 

10000 

ft 

fs 

fd 

000000 

单精度浮点加 

sub.s 

010001 

10000 

ft 

fs 

fd 

000001 

单精度浮点减 

mul.s 

010001 

10000 

ft 

fs 

fd 

000010 

单精度浮点乘 

div.s 

010001 

10000 

ft 

fs 

fd 

000011 

单精度浮点除 


010001 

10000 

00000 

fs 

fd 

000100 

单精度浮点开方 


4.3.2 ALU 设计 


ALU 是负责运算的电路。综合表 4.4 的指令， ALU 需实现以下的 运算： ADD 
(加) 、 SUB (减) 、 AND (与) 、 OR (或) 、 XOR (异或)、 LUI (置高位立即数)、 SLL (逻辑 
左移)、 SRL (逻辑右移）和 SRA (算术右移)。 


addsub32 


a[31:0] 
b[3 1:0] 
aluc[3:0] 



z 


r[31:0] 


aluc[3:0] 

xOOO ADD 
xlOO SUB 


xOOl AND 
xlOl OR 


xOlO XOR 
xllO LUI 


0011 SLL 
0111 SRL 
1111 SRA 


图 4.6 ALU 的逻辑电路阁 


图 4.6 是 ALU 的逻辑电路图。 a[31:0] 和 b[31:0] 是两个 32 位的输入， aluc[3:0] 
是 ALU 的操作控制码， r[31:0] 是 ALU 的 32 位输出， z 是一位零标志。当 r[31:0] 为 
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0时， z 输出1。 

ALU 设计的基本想法是准备好所有的运算电路，然后用多路器进行选择。多路 
器的选择信号就是 ALU 的操作控制码。实际 t ， 图 4.6 是先画好了电路，才定下了 
操作控制码 aluc 。 

以下是 ALU 的 Verilog HDL 代码，用到了以下三个 模块： addsub 32、 shift 和 
mux 4 x 32。 后两个模块已在第2章给出。 • 

9 

module alu (a,b,aluc,r,z); 


input 

[31:0] 

a 

t/b; 




// 

aluc[3:0] 


input 

[3:0] 

aluc; 




// 






output [31:0] 

r; 




// 

X 

0 

0 

0 

ADD 

output z; 






// 

X 

1 

0 

0 

SUB 

wire 

[31:0] 

cL 

and 

■ 

= 3 & 

b; 


// 

X 

0 

0 

1 

AND 

wire 

[31:0] 

cL 

or 

_ 

=a | 

b; 


// 

X 

1 

0 

1 

OR 

wire 

[31:0] 

d_ 

xor 

_ 

=a " 

b; 


// 

X 

0 

1 

0 

XOR 

wire 

[31:0] 

cL 

lui 

m 

={b[15:0],16 f h0}; 

// 

X 

1 

1 

0 

LUI 

wire • 

[31:0] 

d_ 

and 

m 

or = 

w 

aluc[2]? 

d—or 

: d—and; // 

0 

0 

1 

1 

SLL 

wire 

[31:0] 

d— 

xor 
• ■ 

lui = 

aluc [2]? 

d—lui 

: d—xor; // 

0 

1 

1 

1 

SRL 

wire 

[31:0] 

d— 

•as, d 

—sh; 



// 

1 

1 

1 

1 

SRA 


addsub32 as32 (a,b,aluc[2],d—as); 
shift shifter (b,a[4:0],aluc[2],aluc[3],d 一 sh); 
mux4x32 select (d 一 as,d—and—or,d 一 xor—lui,d 一 sh,aluc[1:0],r); 
assign z = "|r; 
endmodule 


上述代码中标志位 z 的赋值语句的意思是把 r 的所有32位或起来再取反。 

以下是 addsuh 32 模块的 Verilog HDL 代码，它实现32位的加减运算。由于 
a — b = a + (― b ) = a + 6 + 1,所以 addsub 32 可以使用加法电路 cla 32 实现。 cla 32 
的代码已在第3章给出了。 

module addsub32 (a, b, sub, s); 

input [31:0] a, b; 
input sub; 

output [31:0] s; 

cla32 as32 (a, b"{32{sub }}, sub, s); 
endmodule 


图 4.7 是 ALU 的仿真波形，其中 aluc 用二进制表示，其余是十六进制。测试的 
次序是 ADD 、 SUB 、 AND 、 OR 、 XOR 、 LUI 、 SLL、SRL 和 SRA ， 其中 SRA 测试 

了数据最高位为 1 和 0 两种情况。当 r ■为0时， z 应该输出1,我们没有测试。 

我们将从第5章开始，使用这个 ALU 来设计各种不同的 CPU 。 因此建议读者 
仔细检查信号的输人值和输岀值，看输出值是否与我们期待的一样，同时也加深对 
ALU 设计方法的理解。 




4.4 习题 


125 



阍 4.7 ALU 仿真波形 

4.4 习题 

1. 使用功能描述风格的 Verilog HDL ( casex ) 重新设计 ALU 并仿真。 

2. 在 ALU 中增加一位标志位 v (输出)，判断带符号数汁算时的溢出。 

3. 试实现 sla (Shift Left Arithmetic ) 指令(算术左移、保持正负不变)。 

4. 参照表 4.4, 试把以下汇编程序转换成二进制代码，假设地址从0开始。 

main : lui rl, 0 # address of data[0] 

ori r4, rl, 80 # address of data[0] 

addi r5, rO, 4 # counter 

call : jal sum # call function 

sw r2 f 0 (r4) # store result 

lw r9 f 0 (r4) # check sw 

sub r8, r9, r4 # sub: r8 <-- r9 - r4 

addi r5 f rO, 3 # counter 

loop2 : addi r5, r5, -1 # counter - 1 

ori r8, r5, Oxffff # zero-extend: OOOOffff 
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xori 

r8. 

r8. 

0x5555 


addi 

r9. 

r0, 

-1 


andi 

rlO, 

r9. 

Oxffff 


or 

r6 f 

rlO, 

r9 


xor 

r8. 

rl0 f 

r9 


and 

r7. 

rlO, 

r6 


beq 

r5 f 

r0. 

shift 


參 

D 

loop2 


shift : 

addi 

r5 ， 

r0 f 

-1 


sll 

r8. 

r5 f 

15 


sll 

r8. 

r8 f 

16 


sra 

r8. 

r8 f 

16 


srl 

r8. 

r8 f 

15 

finish : 

• 

D 

finish 


sum: 

add 

r8. 

r0 f 

rO 

loop : 

lw 

r9 f 

0 (r4) 


addi 

r4. 

r4 f 

4 


add 

r8. 

r8 f 

r9 


addi 

r5. 

r5 f 

-1 


bne 

r5 f 

r0 f 

loop 


sll 

r2, 

r8 f 

0 


jr 

r31 




# 



# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 


# 

# 


# 




zero-extend: OOOOaaaa 

sign-extend: ffffffff 

zero-extend: OOOOffff 

or: ffffffff 

xor: ffffOOOO 

and: OOOOffff 

if r5 = 0, goto shift 

jump loop2 

r5 = ffffffff 

«15 = ffff8000 

<<16 = 80000000 

>>16 = ffff8000 (arith) 

>>15 = OOOlffff (logic) 

dead loop 

sum 

load data 
address + 4 
sum 

counter 一 1 
finish? 

move result to vO 
return 


5. 调查以下 CPU 的指令系统，包括寄存器（累加器）结构和寻址方式，并比较它 
们的特点： 8086、 Z 80、 6800、6502、 SPARC 、 ARM 。 

6. 使用 gcc-S my _ program.c 可以把高级语言程序转换成汇编程序。假设你现在使 
用的不是 MIPS CPU 的机器而又想生成 MIPS 汇编程序，有办法吗？有，去网 
上下载一个交叉编译程序。试试看 o 
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目前的计算机都属于“同步”计箅机。所谓同步计算机是指在计算机系统中有一 
个时钟 （ Clock ), 计算机所有的动作都以这个时钟为基准。见图 5.1 单周期 CPU 的波 
形，我们把时钟的电平从低到高变化的瞬间称为时钟上升沿，两个相邻时钟上升沿 
之间的时间间隔称为一个时钟周期 (Clock Cycle)o 



图 5.1 时钟周期和单周期 CPU 指令的执行 

单周期 CPU 指的是一条指令的执行在一个这样的时钟周期内完成，然后开始下 
一条指令的执行，即一条指令用一个周期。 

从本章开始正式介绍 CPU 的设计方法。当然，本章只涉及单周期 CPU ， 以后各 
章陆续介绍比单周期 CPU 性能要好的其他类型的 CPU 的设计方法。本章是基础。 

5.1 执行一条指令所需的硬件电路 

计算机程序由一条条指令及数据构成。通常程序存于硬盘中。当计算机执行一 
个程序时，首先由操作系统把要执行的程序从硬盘调入内存，然后 CPU 从内存读出 
指令开始执行。注意操作系统本身也是程序。 

我们的目的是要设计 CPU 的硬件电路，使其能够从存储器中读取一条条指令并 
执行指令所描述的操作。从存储器读取指令的动作一般与指令本身的意义无关，我 
们可以对所有的指令以同样的方法从存储器中取来。而执行指令则与指令本身的意 
义密切相关，因此最重要的是首先搞清楚 CPU 要执行的每一条指令的意义。 

第4章的表 4.4 列出了我们要设计的 CPU 能够执行的20条整数指令。依指令 
格式分类，有寄存器格式、立即数格式以及跳转格式3种。依指令意义分类，有4 
种： 计算类型、访问存储器类型、条件转移类型和无条件跳转类型、我们将对每条 
指令执行时所需的硬件电路分别加以说明，然后给出一个整体 CPU 电路。 

5.1.1 与取指令有关的电路 

指令在存储器中。 CPU 要执行它必须首先把它从存储器中读出来，然后才能知 
道指令究竟要干什么。 CPU 取指令时把程序计数器 （Program Counter ， PC ) 中的内容 
作为存储器地址，根据它来访问存储器，从 PC 值指定的存储器单元中取来一条32 


1 单周期 CPU 忽略了 MIPS 转移类指令的延迟转移特性，我们将在流水线 CPU 中实现延迟转移。 
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位指令。如果取来的指令执行时没有引起转移， PC 的值要加4;如果转移，要把转 
移目标地址写人 PC ， 以便在下一个时钟周期取出下一条指令。 

图 5.2( a ) 所示的是与取指令有关的电路，其中的 PC 是一个简单的32位寄 
存器，由32个 D 触发器构成。指令存储器（图中的 Inst Mem ) 的输入端 a 是地址 
( Address )、 输出端 do 是数据输出 （Data Out ), 即指令。图中的加法器专供 PC + 4使 
用，它的输出接到多路器的一个输入端。如果取来的指令没有引起转移或跳转，则 
选择 PC + 4,在时钟上升沿处将其打入 PC 。 多路器的其他输人信号将在稍后描述。 

地址： 字节一 H 

PC ■ » xxxxxxxxO: 

xxxxxxxxl: 
xxxxxxxx2: 
xxxxxxxx3: 

PC+4 —► xxxxxxxx4: 

xxxxxxxx5: 
xxxxxxxx6: 
xxxxxxxx7: 

(b ) 指令存储器 

图 5.2 取指令时用到的硬件电路 

为什么 PC 要加4而不是加1呢？这和存储器地址的约定有关。一般来讲，存 
储器的容量以字节为单位表示，例如 4 G 字节，因此存储器的地址通常也是存储器的 
字节地址。我们知道，一个字节有8位二进制位，而一条指令有32位，要用4个字 
节，所以要加4,见图 5.2( b )。 注意，32位 PC 能访问2 32 = 4 G 字节的存储器，但我 
们的设计只使用了少量的存储器，因此 PC 的高位没被使用。 

5.1.2 寄存器计算类型指令执行时所需电路 




(a) 取指令及 PC+4 


寄存器计算类型的指令有 add 、 sub 、 and 、 or 、 xor 、 sll 、 srl 和 sra 。 图 5.3 所示 
的是执行指令 add 、 sub 、 and 、 or 和 xor 时所需的硬件电路。这 5 条指令除了运算不 
同，其他动作均相同。 



图 5.3 执彳 /add 、 sub 、 and 、 or 和 xor 指令所需的电路 

因为它们都属于寄存器格式的指令，它们的操作码 op 均为0,具体操作由功能 
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码 ftmc 指定，见表4.4。大多数 MIPS 指令属于三操作数指令。指令格式中的 rs 和 rt 
是两个5位的寄存器号，由它们从寄存器堆（图中的 Regfile ) 中读出两个32位的数 
据。由于寄存器号有5位，所以能从2 5 = 32个寄存器中选出一个。32个寄存器合 
在一起称为寄存器堆 （Register File )。 有关寄存器堆的设计方法将在后面讲解。从寄 
存器堆读出的两个32位数据分别被送到 ALU 的 a 和 b 的输入端。 

具体的计算由 ALU 完成。 ALU 的计算控制码 aluc (ALU Control ) 由控制部件 
(Control Unit ) 产生。我们已经在第4章描述了 ALU 的设计。这里的控制部件是简 
单的组合电路，输人信号是指令的操作码 op 和功能码 ftmc ， 输出信号有3个，它 
们分别是 ALU 操作控制码 aluc , 计算结果是否写入寄存器堆的控制信号 wreg (Write 
Register File ) 和下一条指令的地址选择信号 pcsource (PC Source )。 有关控制部件的具 
体设计方法将在后面描述。 ALU 的计算结果要被写人寄存器堆。到底写入32个寄存 
器中的哪一个，由5位目的寄存器号 rd 指定。 

图 5.4 所示的是执行移位指令 sll (Shift Left Logical) 、 srl (Shift Right Logical ) 和 sra 
(Shift Right Arithmetic ) 时所需的硬件电路 D 同样是寄存器计算类型的指令， sll、srl 
和 sra 这3条指令的格式则有些怪怪的，见表4.4。它们使用5位的寄存器号 rt 从寄 
存器堆中读出32位数据，然后把这32位数据左移或右移(逻辑右移或算术右移)。移 
位位数由指令中的5位 sa (Shift Amount ) 决定。移位后的结果写入由5位 rd 指定的寄 
存器中。寄存器号 rs 并没有使用，按 MIPS 的规定，把这5位设置为0。 



图 5.4 执行 sll 、 srl 和 sra 指令所需的电路 


执行这3条移位指令所需的硬件电路与图 5.3 所示的电路略有 不同： 接入 ALU 
输入端 a 的是指令中的 sa ; 而寄存器堆的输出端 qa 并没被使用。由于 sa 只有5位， 
而 ALU 的输入端 a 需要32位，我们把 sa 放在最右，左边的27位随便放什么都行， 
因为我们在设计 ALU 时只使用低5位进行移位操作。电路的其余部分与图 5.3 相 
同。由于 ALU 的输入端 a 的数据来源有两个（一个来自寄存器堆的 qa ， 另一个来自 
指令中的 sa )， 我们必须根据取来的指令，从这两个数据源中选出一个。使用什么来 
选？当然是二选一多路器（多路器真是好东西啊)。二选一多路器的两个数据输入端分 
别接两个数据源，选择信号由控制部件产生。 
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5.1.3 立即数计算类型指令执行时所需电路 

立即数计算类型的指令包括 addi 、 andi 、 ori 、 xori 和 lui , 仅由 op 区分。它们的 
共同特点是 ALU 操作数 b 来自于指令中的立即数，见图5.5。 



图 5.5 执行 addi 、 andi 、 ori 、 xori 和 lui 指令所需的电路 

指令 lui 比较特殊，它只需要一个操作数（立即数)。 ALU 将其左移16位，结果 
保存到由 rt 指定的寄存器中。其他指令均需两个操作数。操作数 a 来自于 rs 寄存 
器。操作数 b 来自于指令中的立即数。立即数为16位，送到 ALU 之前需要扩展成 
32位。算术运算指令 addi 进行符号扩展，逻辑运算指令 andi 、 ori 和 xori 进行零扩 
展。图中的控制信号 sext (Sign Extend ) 为1时符号扩展，否则零扩展。组件 e 即为立 
即数扩展电路。与寄存器格式的指令不同，立即数格式的指令把计算结果写人由 rt 
指定的寄存器中（寄存器格式的指令的目的寄存器号是 rd )。 

5.1.4 访问存储器类型指令执行时所需电路 

访问存储器的指令有 两条 ： lw (Load Word ) 指令从数据存储器中读数据 ， sw 
(Store Word ) 指令往存储器中写数据。两条指令计算存储器地址的方法是把两个数相 
加： 一个数是使用 rs 从寄存器堆中读出的，另一个数是把指令中的16位立即数进行 
符号扩展得到的。两个数的相加由 ALU 完成，相加结果作为存储器的地址使用 。 lw 
指令把从存储器中读出的数据写入由 rt 指定的寄存 器中； sw 指令把 rt 寄存器的数据 
写人存储器。 

图 5.6 所示的是执行 lw 和 sw 指令所需的硬件电路。图中的符号扩展控制 
信号 sext 输出1。是否写入数据存储器（图中的 Data Mem ) 由控制信号 wmem (Write 
Memory ) 指定：为1时写入，为0时不写。当指令是 lw 时 ， wreg = 1 ， wmem = 0； 
当指令是 sw 时， wmem = 1, wreg = 0。 

由于我们这里讨论的是单周期 CPU 的设计，我们需要两个分开的存储器 模块： 
指令存储器和数据存储器。如果使用一个存储器模块并且存储器模块只有一个访问 
端口，我们无法在一个时钟周期既读取指令又访问数据。在实际的 CPU 中， CPU 芯 
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阁 5.6 执行 lw 和 sw 指令所需的电路 


片内部都设计有分开的指令 Cache 和数据 Cache 。 后面将讨论有关 Cache 的原理和设 
计，我们这里暂且“认为”两个存储器模块是两个 Cache 模块。 

5.1.5 条件转移类型指令执行时所需电路 

到现在为止，在我们给出的电路中， pcsource 信号都是设置为00,即选择 
PC + 4作为下一条指令的地址。条件转移 (Conditional Branch ) 类型的指令则不同， 
有可能引起向其他地方的转移。这样的指令有 beq (Branch on Equal ) 和 bne (Branch on 
Not Equal ) 两条。 

执行 beq 和 bne 指令所需的硬件电路如图 5.7 所示。首先使用 re 和 rt 从寄存器堆 
读岀两个数据，由 ALU 比较它们是否相等，然后决定是否转移。 beq 指令是相等时 
转移， bne 是不等时转移。转移时应使 pcsource = 01,选择转移的目标地址；不转 
移时应使 pcsource = 00,选择 PC + 4。目标地址的计算由一个专门的加法器完成。 
加法器的两个输入端分别是 PC + 4和符号扩展的立即数再左移两位的数据。我们也 
称这时的立即数为偏移量，使用它做 PC 相对转移。 



阁 5.7 执行 beq 和 bne 指令所需的电路 
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判断两个数据是否相等可以用减法操作 实现： 如果相等，减法结果是0, ALU 
的标志位 z = l ; 否则 z = 0。 我们也可以使用异或操作来判断两个数是否相 等：如 
果两个32位数相等，按位异或的结果是32位0,这时 z = l ; 否则 z = 0。 由于我 
们设计的 ALU 能完成这两种计算，因此可以任选一种来判断两个数是否相等。 

由于一条指令占用4个字节，字节地址的 PC 的低两位为0,所以 PC 相对转移 
时使用的偏移 M 的最低两位按道理也应是0。但把这样的偏移量放在指令的低16位 
有些浪费，因此 beq 和 bne 指令中低16位存放的是“字偏移量”而不是“字节偏移 
量”。使用字偏移 M 与字节地址 PC + 4相加时，要把字偏移量左移两位后再相加。 
左移两位的操作不需要任何硬件电路，只要通过适当的连线即可完成。 

5.1.6 跳转和子程序调用及返回类型指令执行时所需电路 

条件转移指令能改变程序执行的流程。同样，无条件跳转 （Unconditional Jump ) 
指令也能，而且是无条件的。20条指令的最后3条是 j ( Jump)、jal (Jump and Link ) 和 
jr (Jump Register ) o 指令 j 实现尤条件跳转，指令中的 26 位地址左移两位变成28位， 
再与 PC + 4的高4位拼接在一起，构成32位转移地址，写人 PC 。 指令 jal 是调用子 
程序的指令。它除了完成与 j 相同的任务之外，还要把 PC + 4写入寄存器 r 31， 即保 
存返回地址 2 。指令 jr 把从 rs 指定的寄存器中读出的内容写入 PC , 可以用于从子程 
序返回 (rs = 31)。 

图 5.8 所示的是 j 指令执行时所需的硬件电路。这可能是 MIPS 指令系统中最简 
单的指令了。它既不使用 ALU ， 也不使用寄存器堆。左移两位也是通过连线实现， 
不需要任何逻辑电路。由于是无条件转移，控制部件输出 pcsource ^ 11(3)。 



图 5.8 执行 j 指令所需的电路 

图 5.9 所示的是 jal 指令执行时所需的硬件电路。该指令除了跳转之外，还要把 
返回地址保存在 r 31 寄存器中，因此我们令 wreg = 1 并且把 5 位二进制数的 11111 
送入寄存器堆的 wn 输入端。 

图 5.10 所示的是 ji ■指令执行时所需的硬件 电路： 它实现寄存器间接 转移： 从寄 
存器堆中读岀由 rs 指定的寄存器的内容并把它写入 PC (pcsource = 10)。 如果寄存器 
号是 31, 则可实现从子程序返回。 

2 MIPS 指令系统考虑到流水线延迟转移的因素，把 PC + 8 作为返回地址保存在 r31 。 我们这里暂且 
保存 PC + 4, 但要注意这样一来就不与 MIPS 的指令兼容了。 
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图 5.9 执行 jal 指令所需的电路 



clock 


Regfile 


图 5.10 执行 jr 指令所需的电路 

所有的20条指令在执行时所需的硬件电路都分别介绍完了。从这样的零敲碎打 
还不足以看出一个整体 CPU 的全貌，有些部件的输入还存在着冲突。稍后我们将介 
绍如何把它们有机地整合在一起，以指令为本，构建一个和谐的 CPU 。 在此之前， 
我们要详细讨论寄存器堆的设计方法。 


5-2 寄存器堆设计 


MIPS 指令格式中的寄存器号是5位，这意味着指令可以访问2 5 = 32个寄存 
器。这样的一堆寄存器“堆在一起”构成一个寄存器堆 （Register File )。 图 5.11 所示的 
是寄存器堆的电路符号。它有两个读端口和一个写端口。每个端口都有一个5位的 
寄存器号，用于指定一个寄 存器； 还有一个32位的数据端，用于读写数据。 

我们首先描述寄存器堆的硬件结构，然后给出两个版本的 Verilog HDL 实现代 
码： 一 个是结构描述风格的代码，另一个是功能描述风格的代码。 


5.2.1 寄存器堆的硬件电路设计 


MIPS 32 体系结构的 CPU 中有32个整数寄存器，每个寄存器有32位，每位可 
以用一个带有写使能端的 D 触发器 dffe (图 2.23) 实现(寄存器0除外，它永远是0)。 
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读端口 a 的寄存器号 
读端口 b 的寄存器号 
写端口的寄存器号 
写端 U 的 32 位数据 
寄存器堆的写使能 

时钟 

清零 



读端口 a 的 32 位数据 
读端 Ub 的 32 位数据 


图 5.1 1寄存器堆的电路符号及各信号的意义 


图 5.12 示出的是由32个 dffe 组成一个32位寄存器 ( dffe 32) 的电路 3 


dffe 


d[31:0] 


e 

elk 

elm 



dffe dffe 



—C=> q[31:0] 


图 5.12 由 32 个 dffe 组成一个 32 位的寄存器 dffe 32 的电路 

图 5.13 示出的是由31个 dffe 32 组成32个寄存器 ( reg 32) 的电路。由于 MIPS 规 
定寄存器 rO 的内容永远为0,我们使用了 gnd 来实现它。注意输出信号 q [31:0][31:0] 
的 写法： 第一个 [31:0] 表示有32个寄存器，第二个 [31:0] 表示每个寄存器有32位。 
虽然输入信号 d [31:0] 接到了每个寄存器的 d [31:0] 输入端，但每个寄存器都有各自的 
写使能端。被选中的寄存器的写使能端为1，其余全部为0。 


dffe32 


dffe32 


d[31:0] 
蜓 3 1:0] 


elk 

elm 



q[31][31:01 



qH][31：01 


q[31:0][31:0] 


buf 




qf0][31:0] 


gnd 


图 5.13 32 个 32 位的寄存器 reg 32 的电路 

有了 reg 32, 参照第2章，再设计一个带有使能端的 5-32 译码器 dec 5 e 和一个 
32位的32选1的多路器0111 x 32 x 32,按图 5.14 连接各个部件，我们就可以胜利完成 
寄存器堆的电路设计任务了。寄存器堆的两个读端口由两个 mux 32 x 32 实现，它们都 
可以从32个寄存器中选出任意一个，把其内容送出。在写端口方面，译码器的32 
个输出信号（写使能）中最多有一个信号输出为1，其余全部为0。在时钟上升沿处， 
只把 d [31:0] 的数据写人写使能端为1的寄存器中。当译码器的使能端 ena 输入为0 
时，译码器的32个输出信号全部为0,禁止向任何寄存器写入。 













5.2.2 结构描述风格的寄存器堆 Verilog HDL 代码 

以下是寄存器堆的最笨的 Verilog HDL 代码(应该说是最朴素的代码)，与我们在 
5.2.1 小节描述的设计方法基本类似。它调用 5-32 译码器 de C 5 e 和32位寄存器 dffe 32 
两个模块。输出端的多路选择器在代码中以 ftmction 形式直接给出。 

module regfile—dataflow (rna, rnb, d, wn, we, elk, clrn, qa, qb); 

input [4:0] rna,rnb,wn; 
input [31:0] d; 
input we,elk,clrn; 

output [31:0] qa,qb; 
wire [31:0] e; 

wire [31:0] r00,r01,r02,r03,r04,r05,r06,r07; 

wire [31:0] r08,r09,rl0,rll,rl2,rl3,rl4,rl5; 

wire [31:0] rl6,rl7,rl8,rl9,r20,r21,r22,r23; 

wire [31:0] r24,r25,r26,r27,r28,r29,r30,r31; 

dec5e decoder (wn f we f e); 
assign rOO = 0; 

dffe32 regOl (d, elk, clrn, e[01] , rOl); 
dffe32 reg02 (d,elk,clrn,e[02], r02); 
dffe32 reg03 (d,elk,clrn,e[03], r03); 
dffe32 reg04 (d,elk,clrn,e[04] , r04); 
dffe32 reg05 (d,elk,clrn,e[05], r05); 
dffe32 reg06 (d,elk,clrn,e[06], r06); 
dffe32 reg07 (d, elk, clrn, e[07 ] , r07 )； 
dffe32 reg08 (d,elk,clrn,e[08], r08); 
dffe32 reg09 (d,elk,clrn,e[09], r09); 
dffe32 reglO (d, elk, clrn, e[10] , rlO); 
dffe32 regll (d,elk,clrn,e[11] , rll); 
dffe32 regl2 (d, elk, clrn, e[12] , rl2); 
dffe32 regl3 (d,elk,clrn,e[13], rl3); 
dffe32 regl4 (d,elk,clrn,e [ 14], rl4); 
dffe32 regl5 (d,elk,clrn,e[15], r15); 
dffe32 regl6 (d,elk,clrn,e[16] , r16); 
dffe32 regl7 (d,elk,clrn,e[17] , rl7); 
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dffe32 regl8 (d f elk,clrn f e[18 ], rl8); 
dffe32 regl9 (d, elk, clrn,e 【 19], rl9); 
dffe32 reg20 (d,elk,clrn,e[20], r20); 
dffe32 reg21 (d,elk,clrn,e[21], r21); 
dffe32 reg22 (d,elk,clrn,e[22], r22); 
dffe32 reg23 (d,elk,clrn,e[23], r23); 
dffe32 reg24 (d,elk,clrn,e[24], r24); 
dffe32 reg25 (d,elk,clrn,e[25 】， r25); 
dffe32 reg26 (d,elk,clrn,e[26], r26); 
dffe32 reg27 (d,elk,clrn,e[27], r27); 
dffe32 reg28 (d,elk,clrn,e[28], r28); 
dffe32 reg29 (d,elk,clrn,e[29], r29); 
dffe32 reg30 (d,elk,clrn,e[30], r30); 
dffe32 reg31 (d,elk,clrn,e[31], r31); 

assign qa = select(rOO,rOl,r02,r03,r04,r05,r06,r07, 

r08, r09,rlO,rll,rl2,rl3,rl4,rl5, 
rl6, rll f rlQ,rl9,r20,r21, r22,r23, 
r24,r25,r26 f r27 f r28,r29,r30,r31,rna); 
assign qb = select(rOO, rOl, r02, r03, r04, r05, r06, r07, 

r08 f r09 / rl0 f rll / rl2 / rl3 / rl4 / rl5 / 
rl6 f rl7 f rl8 f rl9 f r20 / r21 / r22 f r23 / 
r24,r25,r26,r27,r28,r29,r30,r31,rnb); 

function [31:0] select; 

input [31:0] rOO,rOl,r02,r03,r04,r05,r06,r07, 

r08 f r09 f rl0 f rll / rl2 f rl3 f rl4 f rl5 f 
rl6 f rl7 f rl8 f rl9 / r20 f r21 f r22 f r23 f 
r24^ r25 f r26 f r27 # r28 # r29 f r30 f r31; 
input [4:0] s; 
case (s) 


5 f d00: 

select 

= 

rOO 

5 f dOl: 

select 

s 

rOl 

5 f d02: 

select 

= 

r02 

5 f d03: 

select 

= 

r03 

5 # d04: 

select 

s 

r04 

5 # d05: 

select 

S5 

r05 

5 f d06: 

select 

= 

r06 

5 f d07: 

select 

s 

r07 

5 ， d08: 

select 

= 

r08 

5 # d09:- 

select 

= 

r09 

5 ， dl0: 

select 

s 

rlO 

dll: 

select 

= 

rll 

5 f dl2: 

select 

s 

rl2 

5 ， dl3: 

select 

= 

rl3 

5 # 0114: 

select 


rl4 

dl5: 

select 

= 

rl5 
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5 f dl6: 

select 

= 

rl6 

5 f dl7: 

select 

= 

rl7 

5/C118: 

select 


rl8 

5 f dl9: 

select 


rl9 

5^20: 

select 

= 

r20 

5 f d21: 

select 

= 

r21 

5 f d22: 

select 

= 

r22 

• 5 f d23: 

select 

= 

r23 

5 ， d24: 

select 

= 

r24 

5 f d25: 

select 

= 

r25 

5 f d26: 

select 

= 

r26 

5 ， d27: 

select 

= 

r27 

5 # d28: 

select 

= 

r28 

d29: 

select 

= 

r2 9 

5 ， d30: 

select 

= 

r30 

5 f d31: 

select 


r31 


endcase 

endfunction 

endmodule 


以下是 5-32 译码器的 Verilog HDL 代码。 


module dec5e (n,ena,e); 

input [4:0] n; 
input ena; 


output [31:0] e; 
function [31:0] decoder; 
input [4:0] n; 
input ena; 

if (ena==l / b0) decoder = 32^00000000; 
else begin 


case (n) 


5^00000 
5^00001 
5^00010 
5^00011 
5^00100 
5^00101 
5400110 
5^00111 
5^01000 
5 f bOlOOl 
5^01010 
5^01011 
5 f bOHOO 
5^01101 
bOlllO 


decoder = 
decoder = 
decoder = 



decoder = 
decoder = 
decoder = 
decoder = 
decoder = 
decoder = 
decoder = 
decoder = 
decoder = 
decoder = 
decoder = 


32 f hOOOOOOOl 
32 ， h00000002 
32 ， h00000004 
32^00000008 
32^00000010 
32 f h00000020 
32^00000040 
32^00000080 
32^00000100 
32^00000200 
32^00000400 
32 ， h00000800 
32^00001000 
32 f h00002000 
32^00004000 
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5^01111: 

decoder 

= 

32 ， h00008000 

5^10000: 

decoder 

= 

32 f hOOOlOOOO 

5 ， bl0001: 

decoder 

= 

32 ， h00020000 

5^10010: 

decoder 


32^00040000 

5^10011: 

decoder 

= 

32^00080000 

5^10100: 

decoder 

= 

32 ， h00100000 

s^ioioi ： 

decoder 


32 ， h00200000 

5^10110: 

decoder 

= 

32^00400000 

5 f blOlll: 

decoder 

= 

32400800000 

5^11000: 

decoder 

= 

32 f hOlOOOOOO 

5^11001: 

decoder 

= 

32 ， h02000000 

5 f bllOlO: 

decoder 

= 

32 ， h04000000 

5^11011: 

decoder 

= 

32^08000000 

5^11100: 

decoder 

= 

32^10000000 

5^11101: 

decoder 

= 

32^20000000 

5^11110: 

decoder 

= 

32 ， h40000000 

5 f blllll: 

decoder 


32 ， h80000000 


endcase 

end 

endfunction 

assign e = decoder(n,ena); 
endmodule 

以下是 32 位寄存器的 Verilog HDL 代码。 

module dffe32 (d,elk,clrn,e,q); 

input [31:0] d; 
input elk,clrn,e; 

output [31:0] q; 
reg [31:0] q; 

always @(negedge clrn or posedge elk) 

if (clrn == 0) begin 
q <= 0; 

end else begin 

if (e) q <= d; 

end 

endmodule 

5.2.3 功能描述风格的寄存器堆 Verilog HDL 代码 


数据流描述风格的代码太麻烦了。以下的 Verilog HDL 代码同样实现寄存器堆 
电路。关键部分是类似于二维数组的寄存器变 M : reg [31:0] register [1:31], 其中的 
[31:0] 声明每个寄存器有32位， [1:31] 声明有31个寄存器（寄存器0的内容永远是 
0)。另外，我们使用了 integer 类型，它声明变 M i 是整数类型。整数类型的变量是 
32位的带符号数。与 reg 和 wire 不同，我们不能对 integer 变 M 做“按位”的操作。 
实际上， integer 变量本身不会以逻辑电路的形式出现在经过逻辑综合后的电路中。 
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module regf ile (rna, rnb, d, wn, we ， elk, dm, qa, qb); 

input [4:0] rna,rnb,wn; 
input [31:0] d; 
input we,elk,clrn; 

output [31:0] qa,qb; 

reg [31:0] register [1:31]; // 31 x 32-bit regs 


// 2 read ports 

assign qa = (rna == 0) ? 0 : register[rna]; 
assign qb = (rnb == 0) ? 0 : register[rnb]; 


// 1 write port 

always @(posedge elk or negedge clrn) 

if (clrn == 0) begin 

integer i; 

for (i=l; i<32; i=i+l) 
register[i] <= 0; 
end else if ((wn != 0) && we) 

register[wn] <= d; 

endmodule 

比起数据流描述风格，功能描述风格的寄存器堆的 Verilog HDL 代码简洁多了。 

5.3 数据路径设计 


CPU 的电路包括数据路径 ( Datapath ) 和控制部件 (Control Unit ) 两大部分。本节 
介绍单周期 CPU 的总体数据路径，并给出 Verilog HDL 代码。 

5.3.1 多路选择器的使用 

我们在 5.1 节已经分别介绍了每条指令执行时所需的硬件电路。有些部件的输入 
源不止一个，比如 ALU 的 b 输入端：当 CPU 执行诸如 add rd , rs , rt 的指令时，由 rt 
指定的寄存器的内容应送到 ALU 的 b 输 入端； 而当 CPU 执行诸如 addi rt , rs ， imm 的 
指令时，立即数 imm 经符号扩展后应送到 ALU 的 b 输入端。解决这种输人源冲突问 
题的办法是使用多路选择器。 


1. 下一条指令地址的选择（控制信号 pcsource ) 


程序不转移时下一条指令的地址是 PC + 4,但以下五条指令会引起程序转移 


beq/bne rs,rt, label # if • • • pc <-- label op | rs | rt | offset | 
jr rs # pc < -- rs | op | rT" 0 0 I 0 jfunc] 

j/jal address # pc < ― address*4 op I address ] 
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beq 指令从寄存器堆的 rs 寄存器和 rt 寄存器读出两个32位数据，将它们分别 
送至 ALU 的 a 和 b 输人端。 ALU 比较这两个数是否相等。若相等， ALU 的输出 z 
为1，程序发生转移。转移的目标地址为 PC 加4,再加上符号扩展的偏移量左移两 
位。 bne 是不相等时转移。 ji •指令比较简单， rs 寄存器中的内容就是转移目标地址 。 j 
和 jal 指令中的26位地址左移两位，再与 PC + 4的高4位拼接在一起，即是转移目 
标地址。 

算上不转移时的 PC + 4,下一条指令地址有4个来源。我们使用一个四选一多 
路器来选择下一条指令的地址，如图 5.15 所示。 



阁 5.15 下一条指令地址的选择（四个数据源) 


2. ALU 的 a 输入端（控制信号 shift ) 


考虑以下两条寄存器操作型指令。一条是加法指令，一条是移位指令。 


add 

rd,rs,rt ; 

rd < —— rs + rt 

op 

| rs | rt | rd | 

0 |func| 

sll 

rd,rt,sa ; 

rd < —— rt << sa 

丨 op 

1 0 I rt rd | 

sa func 


add 指令从寄存器堆的 rs 寄存器和 rt 寄存器读出两个32位数据，将它们分别 
送至 ALU 的 a 和 b 输入端。 ALU 的加法结果保存到寄存器堆的 rd 寄存器中。 sll 指 
令从寄存器堆的 rt 寄存器读出一个32位数据，送它至 ALU b 输人端。指令中的 sa 
(Shift Amount ) 送至 ALU a 输入端的低 5位， 高27位随便填些什么，比如填0。 

因此， ALU 的 a 输入端有两个数 据源： 一个来自寄存器堆的 qa 端，一个来自指 
令中的 sa 。 我们使用一个二选一多路器从两个数据源中选出一个送至 ALU 的 a 输入 
端，见图5.16。多路器的选择信号命名为 shift ， 其意义为 shift = 1时选择 sa 。 


3. ALU 的 b 输入端和寄存器堆的 wn 输入端（控制信号 aluimm 和 regrt ) 

考虑以下两条指令。 一 条是寄存器型指令， 一 条是立即数型指令。 
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阁 5.16 ALU 输人端 a 的两个数据源 


add rd, rs,rt ; rd < —— rs + rt 
addi rt,rs,imm ; rt <-- rs + imm 

add 指令从寄存器堆的 rt 寄存器读出 32 位数据将它送至 ALU 的 b 输人端 。 ALU 
的加法结果保存到寄存器堆的 rd 寄存器中。 addi 指令把指令中的立即数经符号扩展 
后送至 ALU 的 b 输入端。 ALU 的加法结果保存到 rt 寄存器中。 

因此， ALU 的 b 输入端有两个数 据源： 一个来自寄存器堆的 qb 端，一个来自指 
令中的 imm 。 寄存器堆的 wii 输入端（目的寄存器号）也有两个数 据源： 一个来自指令 
中的 rd , —个来自指令中的 rt 。 我们使用两个二选一多路器，如图 5.17 所示。两个 
二选一多路器的选择信号分别为 aluimm 和 regrt 。 当 aluimm = 1时，选择立即数， 
否则，选择寄存器操 作数； 当 regrt=l 时，选择 rt ， 否则，选择 rd 。 



milil 


clock 



图 5.17 ALU 输入端 b 的两个数据源和寄存器堆输入端 


的两个数据源 
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15 



0> 


sa 


imm 


clock 


图 5.18 寄存器堆输入端 d 的三个数据源 


我们使用了两个二选一多路器从三个数据源中选出一个。两个多路器的选择信 
号分别为 m 2 reg 和 jal 。 由于 jal 指令总是把返回地址写人寄存器 r 31 中，因此我们在 
电路中增加了一个小小模块，即图中的 f 。 模块 f 的输入为5位的寄存器号 reg _ d es t 
和控制信号 jal , 输出为 wn , VerilogHDL 语 句为： 


assign wn 


reg_dest 


(5{jal}}; 


5.3.2 单周期 CPU 的总体电路 


综合以上讨论的各种情况，我们得到如图 5.19 所示的单周期 CPU 的总体电路。 
该电路必须能够执行表 4.4 列出的所有20条指令。 

从概念上讲， CPU 部分并不包括存储器（或主存)。如果把指令存储器和数据存 
储器抽出来，并把 CPU 部分用一个器件符号表示，则有图 5.20 所示的结构。我们最 
好称其为单周期计算机，因为计算机包括了 CPU 和存储器。 


aluimm 


shift 


aluc 


wmem 


imm 


pcsource 


m2re 


4. 寄存器堆的 d 输人端（控制信号 m 2 r e g 和 jal ) 


考虑以下三条 指令： 寄存器型指令、存储器访问指令和子程序调用指令。 


add rd, rs,rt 
lw rt,offset (rs) 


rd < —— rs 



op I rs I rt I rd 


func 


rt < 麵讎 mem[rs+offset] op I rs rt 


offset 


jal address 


r31< —— pc+4, pc< — address*4 op 


address 


add 指令把 ALU 结果写入寄存 器堆； lw 指令把从存储器取来的数据写入寄存器 
堆； jal 指令把 PC + 4写入寄存器堆，见图5.18。 


ml I# 

Hi 






— 


I 



15 


• ? __ _ _ • 

JrMIMIIH 


lali 遷 



t 

Ell 

i-ml 


stz 
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图 5.19 单周期 CPU +指令存储器+数据存储器的总体电路图 



5.3.3 单周期 CPU 的 Verilog HDL 代码 

以下是图 5.20 所示的单周期计算机的 Verilog HDL 代码。它调用单周期 CPU 模 
块 sccpu_dataflow 、指令存储器模块 scinstmem 和数据存储器模块 scdatamem。 将在稍 

后讨论控制部件和存储器模块的设计方法。 

module sccomp—dataflow (clock,resetn,inst,pc,aluout,memout,mem—elk); 

input clock,resetn,mem 一 elk; 

output [31:0] inst,pc,aluout,memout; 
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wire [31:0] data; 
wire wmem; 

sccpu 一 dataflow s (clock,resetn ， inst f memout f pc f wmem / aluout,data); 
scinstmem imem (pc,inst>; 

scdatamem dmem (clock,memout,data,aluout f wmem f mem 一 elk,mem_clk); 
endmodule 


以下是数据流描述风格的单周期 CPU 的 Verilog HDL 代码 sccpu _ dataflow . v 0 


module sccpu—dataflow (clock,resetn,inst,mem,pc,wmem f alu f data); 

input [31:0] inst 9 mem; 
input clock,resetn; 

output [31:0] pc f alu/data; 


output 
wire [31:0] 
wire [3:0] 
wire [4:0] 
wire [1:0] 
wire 

wire [31:0] 
wire [31:0] 

sccu—dataflow 

wire 


wmem; 

p4,bpc, npc,adr,ra,alua,alub,res,alu 一 mem; 
aluc; 

reg 一 dest,wn; 
pcsource; 

zero, wmem f wreg,regrt,m2reg f shift,aluimm,jal,sext; 
sa = {27 ， b0,inst[10:6]}; 
offset = {imm[13:0],inst[15:0],2 f bOO}; 
cu (inst[31:26] , inst[5:0 ], zero,wmem f wreg,regrt, 
m2reg,aluc,shift,aluimm,pcsource, jal, sext); 
e = sext & inst[15]; 


wire [15:0] imm = {16{e}}; 

wire [31:0] immediate = {imm,inst[15:0]}; 

dff32 ip (npc,clock,resetn,pc); 

cla32 pcplus4 (pc,32 f h4, b0 f p4); 

cla32 br 一 adr (p4,offset, l r bO, adr); 

wire [31:0] jpe = {p4[31:28],inst[25:0] f 2’bOO}; 

mux2x32 alu 一 b (data,immediate,aluimm,alub); 

mux2x32 alu—a (ra,sa, shift, alua); 

mux2x32 result (alu,mem,m2reg / alu 一 mem); 

mux2x32 link (alu_mem,p4,jal,res); 

mux2x5 reg 一 wn (inst[15:11 ] 9 inst[20 : 16],regrt,reg 一 dest); 
assign wn = reg_dest | {5{jal}}; // jal : r31 <——p4; 

mux4x32 nextpc (p4,adr,ra,jpe,pcsource,npc); 

regfile rf (inst[25:21], inst[20:16] , res,wn,wreg,clock,resetn, 

ra, data); 


alu al 一 unit (alua,alub,aluc,alu,zero); 
endmodule 


5.4 控制部件设计 


本节详细描述单周期 CPU 中的控制部件的设计方法并给出 Verilog HDL 代码。 
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5.4.1 控制部件的逻辑设计 


首先我们根据指令中的 6 位 op 对指令译码。如果 op = 0, 则需要再检査 6 位的 
func, 见表 5.1 。我们得到每条指令译码的逻辑表达式 ( 未化简)。 

表 5.1 指令译码 


指令 

op[5:0] 

func[5:0] 

指令 

op[5:0] 

add 

000000 

100000 

addi 

001000 

sub 

000000 

100010 

andi 

001100 

and 

000000 

100100 

ori 

001101 

or 

000000 

100101 

xori 

001110 

xor 

000000 

100110 

lw 

100011 

sll 

000000 

000000 

sw 

101011 

srl 

000000 

000010 

beq 

000100 

sra 

000000 

000011 

bne 

000101 

jr 

000000 

001000 

lui 

001111 



• 

J 

000010 



jal 

000011 


r.type = 
i 一 add = 


i 一 sub = 
i _and = 
Lor = 
i-xor = 
i 一 sll = 
i_srl = 
i 一 sra = 

i-jr 二 

i-addi = 
i_andi = 
i_ori = 
i_xori = 
iJw = 


_sw = 
_beq = 
一 bne = 
Jui = 

-J = 

•jal = 


op[5] op[4] op[3] op[2] op[l] op[0] ;_ 

r 一 type func[5] func[4] func[3] func[2] func[l] func[0] 

retype fiinc[5] func[4] func[3] fiinc[2] func[l] flinc[0] 

retype func[5] func[4] func[3] ftinc[2] func[l] func[0] 

r_type func[5] func[4] func[3] func[2] fiinc[l] fiinc[0] 

r 一 type func[5] func[4] func[3] func[2] func[l] func[0] 

retype func[5] func[4] func[3] func[2] fiinc[l] fiinc[0] 

r.type func[5] func[4] func[3] fiinc[2] func[l] ftinc[0] 

retype func[5] fiinc[4] func[3] func[2] fiinc[l] func[0] 

r 一 type func[5] func[4] func[3] func[2] func[l] fiinc[0] 

op[5] op[4] op[3] op[2] op[l] op[0] ; 
op[5 】 op[4] op[3] op[2] op[l] op[0]; 
op[5] op[4] op[3] op[2] op[l] op[0]; 
op[5] op[4] op[3] op[2] op[l] op[0]; 

op[5] op[4] op[3] op[2] op[l] op[0]; 

opW op[4] op[3] op[2] op[l] op[0 ]； 
op[5] op[4] op[3] op[2] op[l] op[0]; 
op[5 】 op[4] op[3] op[2] op[l] op[0]; 
op[5] op[4] op[3] op[2] op[l] op[0] ; 
op[^] OPM op[3] op[2] op[l] op[0]; 
op[5 】 op[4] op[3] op[2] op[l] op[0]; 
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我们在每条指令的名称前面加了 “L” ，这是为了避免在写 Verilog HDL 代码时 
与 VerilogHDL 关键字冲突。因为所有寄存器类型指令的 op 均相同，所以我们使用 
了一个临时变量 r_type 。 译出了指令之后，我们开始做重要的 工作： 确认每条指令执 
行时，控制信号应产生什么值。在我们的 CPU 中，控制信号有 10 个，见表 5.2 。 


表 5.2 控制信号的意义 


控制信号 


意义 

wreg 

写寄 存器： 

为 1 时写寄 存器； 否则不写 

regrt 

H 的寄存器号是 rt: 

为 1 时选择 rt ; 否则选择 rd 

jal 

子程序 调用： 

为 1 时表示指令是 jal; 否则不是 

m2reg 

存储器数据写入寄 存器： 为 1 时选择存储器 数据； 否则选择 ALU 结果 

shift 

ALUa 使用移位 位数： 

为 1 时使用移位 位数； 否则使用寄存器数据 

aluimm 

ALU b 使用立 即数： 

为 1 时使用立 即数； 否则使用寄存器数据 

sext 

立即数符号 扩展： 

为 1 时符号 扩展； 否则零扩展 

aluc[3:0] 

ALU 操作 控制： 

见第 4 章图 4.6 

wmem 

写存 储器： 

为 1 时写存 储器； 否则不写 

pcsource[l:0] 

下一条指令地址的 选择： 00 选 PC + 4; 01 选转移 地址； 

10 选寄存器内的 地址； 11 选跳转地址 


根据每条指令及控制信号的意义，我们可以写出控制信号的真值表，见表 5.3 。 
我们从中选一条 lw 指令来说明填表的 方法： lw 指令计算存储器地址时由 ALU 做加 
法 (aluc[3:0] = x 000); 一 个操作数来自寄存器堆 (shift = 0)； 另一个操作数是指令中 
的偏移量 （ aluimm= 1); 而且偏移量要符号扩展 （sext = 1); 要把结果写人寄存器堆 
( wreg = 1)； 而且是把存储器数据写入寄存器 (m2reg=l )； 0的寄存器号要选择 rt 
(regrt = 1 ) ; 不是 jal 指令 （jal = 0); 不写存储器 （wmem = 0); 下一条指令的地址是 
PC + 4( pcsource [ l :0] = 00) o 由表 5.3, 我们可以写出各个控制信号的逻辑表 达式： 


wreg 

regrt 

jal 

m2reg 

shift 

aluimm 

sext 

aluc[3] 

aluc[2] 

aluc[l] 

aluc[0] 

wmem 


=i—add + i_sub + i 一 and + Lor + i_xor + i_sll + i_srl + i_sra + 



i_addi + i_andi + Lori + i_xori + i」w + Llui + i 一 jal; 

i^addi + i—andi + i.ori + i-xori + i」w + iJui; 

i-jal; 

iJw; 

i-sll + i_srl + i_sra; 

i.addi + Landi + i 一 ori + i_xori + iJw + Llui + i.sw; 
i_addi + i Jw + i^sw + Lbeq + i.bne; 



_sra; 



_sub + Lor + i_srl + 


_sra + Lori + Llui; 


=i jcor + i-sll + Lsrl + i_sra + i_xori + i—beq + i_bne + iJui; 
=Land + i_or + i_sll + Lsrl + i_sra + i_andi + i.ori; 



_sw; 
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表 5.3 控制信号的真值表 


指令 

z 

wreg 

regrt 

IBI 

m2reg 

shift 

aluimm 

sext 

aluc[3:0] 


pcsource[l:0] 

add x 

■a 

■a 

o 

■■ 

mm 


B 

xOOO 

■■ 


sub 

X 

l 

0 

0 

0 

0 

0 

X 

x 100 

mm 


and 

X 

l 

0 

0 

0 

0 

0 

X 

xOO 1 

mm 


or 

X 

■a 

■a 

o 

■■ 

■a 

■B 

mm 

mim 

■■ 


xor 

X 

l 

0 

0 

0 

0 

0 

X 

x0 1 0 

■■ 


sll 

X 

l 

0 

0 

0 

l 

0 

X 

mnm 

■■ 


srl 

X 

l 

0 

0 

0 

l 

0 

X 

■•1 ■— 

0 

00 

sra 

X 

■■ 

mm 

o 


ma 

mm 

n 

mu 

■■ 


• 

jr 

X 

■a 

mm 

D 

mm 

mm 

warn 

D 


■Oi 


addi 

X 

mm 

■a 

o 

mm 

mm 

mm 

mm 


mm 


andi 

X 

l 

l 

0 

0 

0 

l 

o 

xOO 1 

■■ 


ori 

X 

l 

l 

0 

0 

0 

l 

o 

x 1 0 1 

■■ 


xori 

X 

l 

l 

0 

0 

0 

l 

o 

xO 1 0 

mm 

BKQHi 

lw 

X 

l 

l 

0 

1 

0 

l 

1 

xOOO 

mm 


sw 

X 

0 

X 

X 

X 

0 

l 

1 

xOOO 

mm 


beq 

0 

0 

X 

X 

X 

0 

mm 

1 

xO 1 0 

mm 


beq 

1 

0 

X 

X 

X 

0 

mm 

1 

xO 1 0 

■a 

BIB 

bne 

0 

0 

X 

X 

X 

0 

mm 

1 

xO 1 0 

■■ 

mmmm 

bne 

1 

0 

X 

X 

X 

0 

mm 

1 

xO 1 0 

mm 


lui 

X 

■■ 

■ 

O 

■■ 

mm 

■DB 

mm 

uuji 

mm 


• 

J 

X 

■■ 

m 

D 

mm 

mm 

mm 

mm 




jal 

X 

■■ 

mm 

n 

mm 

mm 

mm 

mm 


■■ 

BiB 


pcsource [ l ] = i_jr + ij + i jal ; 
pcsource [0] = Lbeq z + i.bne 2 + i_j + i _ jal ; 

注意，如果一个信号名有多位（例如 aluc ), 分别写出每一位的逻辑表达式。使 
用以上表达式，我们可以用逻辑图输人的方法设计出单周期 CPU 的控制部件。具体 
的电路图我们就不给了，因为 5.4.2 小节的 Verilog HDL 代码与电路图完全等价。 

单周期 CPU 控制部件是一个组合电路，所有输出信号大致可以分为3 类： 多路 
器的选择信号、写使能信号和 ALU 操作的控制信号。我们可以对逻辑表达式进行化 
简，但化简不是本节的重点，因此以上给出的表达式都没有经过化简。 

5.4.2 控制部件的 Verilog HDL 代码 


根据指令译码的逻辑表达式和控制信号的逻辑表达式，我们可以很快写出单周 
期 CPU 控制部件的 Verilog HDL 代码，如下。前半部分是指令译码，后半部分是控 
制信号产生。为了节省版面，删除了从 input 语句开始本应在左侧留有的4个空格。 
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module sccu—dataflow (op, func, z, wmem / wreg, regrt # m2reg / aluc f shift, 

aluimm, pcsource, jal, sext); 

input [5:0] op,func; 
input z; 

output wreg,regrt f jal,m2reg,shift,aluimm,sext ， wmem; 
output [3:0] aluc; 
output [1:0] pcsource; 


wire r 一 type = ~I op; 

wire i—add = r_type& func[5]&'func[4]func[3]& ~func[2]& ~func[1]& ~func [0] 

wire i—sub = r—type& func[5]&'func[4]&~func[3]&"func[2] & func[1]&~func[0] 

wire i_and = r_type& func[5]& ~ func[4]& ~ func[3] & func[2]& ~ func[1]& ~ func[0] 

wire i—or = r—type& func [5] & ~func [4 ] St func [3] & func [2] & ' func [ 1 ] & func [0] 

wire i 一 xor = r—type& func[5]& ~ func[4]& ~func[3] & func 【 2]& func[1]& ~ func[0] 

wire i—sll = r 一 type& ' func [5] & ~ func [4 ] & ~ func [3 】 & ~func [2] & "* func [ 1 ] & ^func [0] 

wire i—srl = r—type& ~ func [5] & ~func [4 ] & 〜func [ 3] & ~func 【 2 ] & func [ 1 ] & **func [0] 

wire i_sra = r_type&'func[5]&~func[4]&~func[3]&^func[2] & func[1] & func[0] 

wire i—jr = r—type&~func[5] & "func 【 4]& func[3] & ^func[2]&~func[1] & ~func[0] 

wire i_addi = 'op[5]&^op[4] & op[3]&’op[2]&’op[1]&’op[0]; 

wire i—andi = -op[5] & "op[4] & op[3] & op[2] & ^op[l]& - op[0]; 

wire i 一 ori = ~op[5]&'op[4] & op(3] & op[2]&’op[l]& op[0]; 

wire i_xori = op [ 5 ] & ' op [ 4 ] & op [ 3] & op [ 2 ] & op 【 l 】 &‘op[0]; 

wire i—lw = op[5]&~op[4]&~op[3]&~op[2] & op[1]& op[0]; 

wire i 一 sw = op [5] & "*op [ 4 ] & op [3] & 'op [2 ] & op [ 1 ] & op [ 0]; 

wire i_beq = ~op[5]&^op[4]&^*op[3] & op [ 2 ] & ~ op [ 1 ] & ~ op [ 0 ]; 

wire i—bne = "op[5]&'op[4]&~op[3] & op[2]&~op[1] & op[0]; 

wire i—lui = ~op[5]&~op[4]& op[3] & op[2] & op[1] & op[0]; 

wire i—j = 'op[5]&~op[4]&-op[3]&~op[2] & op[1]&~op[0]; 

wire i 一 jal = ~op[5 】 &~op[4]&~op[3 】 &~op[2]& op[1] & op[0]; 


assign wreg 

assign regrt 
assign jal 
assign m2reg 
assign shift 
assign aluimm 
assign sext 
assign aluc [3] 
assign aluc (2] 
assign aluc [ 1] 
assign aluc[0] 
assign wmem 
assign pcsource [1] 
assign pcsource [0] 


i 一 add Ii_sub |i—and|i—or |i_xor|i 一 sll|i 一 srl|i—sra| 
i_addiIi—andi|i_ori|i_xoriIi_lw |i 一 lui|i—jal; 
i 一 addiIi—andi|i_ori|i 一 xori|i_lw |i_lui; 


jal; 

lw; 

sill 


srlIi sra 


i — addi | i_andi I i_ori | i 一 xori | i — lw | i」ui 丨 i — sw; 

i 一 addi I i」w | i_sw | i 一 beq | i—bne; 

i_sra; 

i—sub I i—or I i—srl | i—sra | i_ori | i 一 lui; 
i 一 xorIi—sllIi_srlIi—sraIi_xoriIi 一 beq|i 一 bne|i 一 lui; 


and I i 


i_sll I i 一 srl I i 一 sra I i 一 andi | i 一 ori; 


i_sw; 


i 一 jr|i 一 j|i 一 jal; 
i 一 beq&z I i 一 bne& ~ z | i_ j | i 一 jal 


endmodule 
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5.5 存储器及测试程序设计 

CPU 已设计完毕。本节讨论两个存储器模块的设计并描述如何开发一个测试程 
序来验证我们所设计的 CPU 电路的正确性。 

5.5.1 数据存储器设计 


使用 Verilog HDL 可以声明存储器类型的变量，但我们这里使用 Altera 提供的 
LPM (Library of Parameterized Modules ) 中的 ram 模块 lpm _ ram_dq 实现我们的数据存 

储器。本章最后给出一般的、不依赖任何特定器件的代码。 

以下是它的 Verilog HDL 代码。我们使用时钟的后半个周期写存储器。由于 
Quartus II 本身的限制，我们还使 用了两 个专门的时钟 （ inclk 和 outclk ) 用于访问同步 
存储器。理想的情况是不需要这两个时钟，但 Quartus II 不支持异步存储器。 


module scdatamem (elk, dataout, datain, addr f we, inclk, outclk); 


input [31:0] 
input [31:0] 
input 

output [31:0] 
wire 


datain; 

addr; 

elk, we, inclk, outclk; 
dataout; 

write 一 enable = we & ~clk; 


lpm 一 ram 一 dq ram (.data (datain ), 

.address (addr[6:2 】）， 
.we (write—enable), 

.inclock (inclk ), 

.outclock (outclk ), 


defparam 

defparam 

defparam 

defparam 

defparam 

defparam 

endmodule 


.q (dataout)); 
ram.lpm—width = 32; 

ram.lpm^widthad = 5; 
ram.lpm—indata = "registered"; 
ram.lpm_outdata = "registered"; 
ram.lpm 一 file = "scdatamem.mif"; 
ram.lpm 一 address 一 control = "registered"; 


注意此处模块参数的代入使用了与以往不同的方式，这种方式的优点是各信号 
的次序可以是任意的。代码中的参数用于指定存储器的初始化文件。以下是 
存储器初始化文件 scdatamem.mif 的内容。我们设置了 4 个数据，测试程序要把它们 
全部加在一起。注意， mif 文件中不能有汉字。 

DEPTH = 32; % Memory depth and width are required % 

< •黪 

WIDTH = 32; % Enter a decimal number % 

ADDRESS_RADIX = HEX; % Address and value radixes are optional % 

DATA 一 RADIX = HEX; % Enter BIN, DEC, HEX, or OCT; unless % 

% otherwise specified, radixes = HEX % 


CONTENT 
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BEGIN 

[0•.IF] : 00000000; % Range--Every address from 0 to IF = 0 % 


14 

: 000000A3; 

% 

(50) 

data [0] 

0 

+ 

A3 = 

A3 

% 

15 

: 00000027; 

% 

(54) 

data[1] 

A3 


27 = 

CA 

% 

16 

: 00000079; 

% 

(58) 

data[2] 

CA 


79 = 

143 

% 

17 

: 00000115; 

% 

(5C) 

data [3] 

143 

+ 

115 = 

258 

% 


END ; 

最左一列是存储器的字地址，冒号右边的是相应存储单元的内容。一行中两个 
百分号之间的内容是注释。注释开始处括号中的十六进制数是字节地址。 

5.5.2 指令存储器及测试程序设计 

类似地，我们使用了 lpm_rom 实现指令存储器。我们要对 ROM 初始化。初始化 
文件由 lpm_file 参数指定。注意 Altera 的有些器件不支持异步 ROM 。 

module scinstmem (a,inst); 

input [31:0] a; 
output [31:0] inst; 

lpm_rom 1pm 一 rom 一 component (.address (a [6:2 ]), 

•q (inst)); 

defparam 1pm—rom 一 component•lpm_width = 32, 

lpm—rom—component•1pm 一 widthad = 5, 

lpm 一 rom 一 component•lpm_numwords = "unused", 

lpnL_rom—component • 1pm 一 file = "scinstmem.mif •’， 

lpm 一 rom 一 component•lpm 一 indata = "unused ”， 

lpm 一 rom 一 component•1pm 一 outdata = "unregistered ”， 

lpm 一 rom 一 component•1pm 一 address 一 control = "unregistered"; 

endmodule 

指令存储器的初始化文件 ( scinstmem.miO 包含 CPU 的测试代码，如下。指令用 
十六进制表示，括号中的十六进制数是 PC 值。 

DEPTH = 32; % Memory depth and width are required % 

WIDTH = 32; % Enter a decimal number % 

ADDRESS 一 RADIX = HEX; % Address and value radixes are optional % 

DATA 一 RADIX = HEX; % Enter BIN, DEC, HEX, or OCT; unless % 

% otherwise specified, radixes = HEX % 

CONTENT 

BEGIN 

[0..1F] : 00000000/ % Range 一一 Every address from 0 to IF = 00000000 % 

0 : 3c010000; % (00) main : lui rl # 0 # address of data[0] % 

1 : 34240050; % (04) ori r4 f rl, 80 # address of data[0] % 

2 : 20050004; % (08) addi r5 f r0 f 4 # counter % 

3 : 0c000018; % (0c) call : jal sum # call function % 

4 : ac820000; % (10) sw r2, 0 (r4) # store result % 

5 : 8c890000; % (14) lw r*9, 0 (r4) # check sw % 

6 : 01244022; % (18) sub r8, r9, r4 # sub: r8 <-- r9 - r4 % 
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7 

• 

• 

20050003 

% 

(lc) 


addi 

r5 f 

r0 f 

3 

8 

• 

• 

20a5ffff 

% 

(20) 

loop2 : 

addi 

r5 # 

r5 f 

-1 

9 

• 

• 

34a8ffff 

% 

(24) 


ori 

r8 # 

r5 # 

Oxffff 

A 

• 

• 

39085555 

% 

(28) 


xori 

rS, 

r8 f 

0x5555 

B 

• 

• 

2009ffff 

% 

(2c) 


addi 

r9. 

r0, 

-1 

C 

• 

• 

312affff 

% 

(30) 


andi 

rlO, 

r9 # 0xffff 

D 

• 

• 

01493025 

% 

(34) 


or 

r6, 

rlO, 

r9 

E 

• 

• 

01494026 

% 

(38) 


xor 

r8 f 

rlO, 

r9 

F 

• 

• 

01463824 

% 

(3c) 


and 

rl, 

rlO, 

r6 

10 

• 

• 

10800001 

% 

(40) 


beq 

r5 f 

r0 # 

shift 

11 

參 

參 

08000008 

% 

(44) 


• 

D 

loop2 


12 

• 

• 

2005ffff 

% 

(48) 

shift : 

addi 

r5 ， 

r0. 

-1 

13 

• 

• 

000543c0 

% 

(4c) 


sll 

r8. 

r5. 

15 

14 

• 

• 

00084400 

% 

(50) 


sll 

r8. 

r8 f 

16 

15 

• 

齡 

00084403 

% 

(54) 


sra 

r8 f 

r8. 

16 

16 

• 

• 

000843c2 

% 

(58) 


srl 

r8. 

r8 # 

15 

17 

參 

參 

08000017 

% 

(5c) 

finish 

• 

: D 

finish 


18 

• 

• 

00004020 

% 

(60) 

sum: 

add 

r8 # 

r0 f 

rO 

19 

• 

• 

8c890000 

% 

(64) 

loop: 

lw 

r9, 

0(r4) 

1A 

參 

• 

20840004 

% 

(68) 


addi 

r4. 

r4. 

4 

IB 

參 

參 

01094020 

% 

(6c) 


add 

r8 # 

r8 # 

r9 

1C 

# 

# 

20a5ffff 

% 

(70) 


addi 

r5, 

r5. 

-1 

ID 

• 

• 

14a0fffb 

% 

(74) 


bne 

r5 f 

r0 f 

loop 

IE 

• 

# 

00081000 

% 

(78) 


sll 

r2, 

r8 f 

0 

IF 

• 

參 

03e00008 

% 

(7c) 


jr 

r31 




# counter 

# counter - 


% 

% 


# zero-extend: OOOOffff % 

# zero-extend: OOOOaaaa % 

# sign-extend: ffffffff % 

# zero-extend: OOOOffff % 


# or: ffffffff 

# xor: ffffOOOO 

# and: OOOOffff 


% 

% 

% 


# if r5 




0, goto shift % 


# jump loop2 


# r5 

# «15 

# <<16 
* >>16 
# >>15 










= 


ffffffff 

ffff8000 

80000000 


% 

% 

% 

% 


ffff8000(arith) % 
OOOlffff(logic) % 


# dead loop 

# sum 

# load data 

# address 

# sum 


4 


# counter 一 1 

# finish? 

# move result to vO 

# return 


% 

% 

% 

% 

% 

% 

% 

% 

% 


END 


5.5.3 单周期 CPU 测试结果及说明 

图 5.21 〜图 5.23 是在单周期 CPU 上运行测试程序 scinstmem . mif 时的波形图。 
开始处 resetn 的低电平对 CPU 进行复位操作，主要是把程序计数器和寄存器堆清 
零。 CPU 从指令存储器的0地址开始取指令。每个时钟周期执行一条指令。所有的 
20条指令都出现在我们的测试程序中。注意 PC = 0000000 C 处是一条 jal 指令： 调 
用子程序 sum 。0000007 C 处返回。请读者检査每条指令的执行结果是否正确。 

指令存储器可以不用 lpm _ rom ， 直接使用以下的通用代码实现。注意，从功能 
上讲， ROM 只是一种组合电路。 

module scinstmem (a,inst); 
input [31:0] a; 
output [31:0] inst; 
wire [31:0] rom [0:31]; 

assign rom[5 f h00] - 32’h3c010000; // (00) main : 
assign rom[5 # hOl] = 32'h34240050; // (04) 
assign rom[5'h02】= 32^20050004; // (08) 
assign rom 【 5’h03】= 32 # h0c000018; // (0c) call : 
assign rom[5’h04] = 32’hac820000; // (10) 


lui rl, 0 
ori r4, rl, 80 
addi r5 f rO, 4 
jal sum 
sw r2, 0 (r4) 
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▲ 


H scco mp_dataflow.vwf 


Master Time Bar: 1.48844 ik <1 ►] Pointer: 31 4 ns Interval: -1 46 us Start: 




End 


U^O 




11^2 


珍 3 




■69 


録 102 


40.0 ns 


80.0 ns 


120.0 ns 


160.0 ns 


resetn 

mem^cll 

clock 







inst 

aluout 


in 


Sffl 


00000000 


me mout 00000000 ~ )Q00000 A3Y 


00000000 


<)51094020^ 

)( 00000050)^55555^)05655^ 

~ X30000Q /\3)p300002_ 


胤 

■ ■•籲 


A 


S sccomp^dataflow.vwf 


Master Time Bar: 1.48844 um | ► | Pointer: 314 ns Interval: -1.46 us Start: 


B 回® 


End 


U^0 




0^2 


赵 36 


移 69 


綠 102 


160 0 ns 


200.0 ns 


240.0 ns 


280.0 ns 


320.0 ns! 


resetn 

me m_c II 

clock 

pc 

inst 

aluout 

me mout 



r~i 


j~i 


ri 


I — 1 


rn 





(00000064 ； 


A5FFF FXTOFFFF):^C89000C)g0840QQ4 )^T094Q25)C0 A5FFFFX4A0F FF^3C890000^ 


00000003 >jt3O0OOO54X555gggB§Xl0OCl00(?7)( 00000002 )^0000058) 




XtH ： l000027)BOOriCi079Y 


00000000 


m 


•#.1 




scco mp_dataf low, vwf 


E 回区 I 


Master Time Bar: 1.48844 ut 叫 ► Pointer: 31 4 ns Interval: -1.46 us Start: 


End 


0^0 




U^2 


録 3 


移 36 


诊 69 


Cj^102 


360.0 ns 


400 0 ns 


440.0 ns 


480.0 ns ： 


resetn 
mem ell 
clock 

pc 

inst 
aluout 
me mout 




J ~ i 


I ~ l 



I ~ l 



I~l 






00000070) 

gOA5FFFF) 



05Q(j50000T43^ r 
007^3000011 


00000001 







DOnpOl 15^30000000^000007^0 


图 5.21 单周期 CPU 仿真波形图 （1 〜 
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scco mp_dataf lo 壽 . 



0回® 


Master Time Bar 1.48844 u? ^ j ► : Poinlef ： 31 4 ns Interval: -1.46 us Sfart: 


End: 


1#0 


1# 


1#>2 


録 36 


_69 


©>102 


resetn 
mem c\\ 
clock 



inst 






^50000020) 



a luout POOOOOOO >)55555^55055515)( 


00000060 


览 0_ r 8) pOM ^ O _ CI 2 一 


me mout 


00000000 ^li ： ii ： iUQQ79 ；； OQ00000Q X 00000258 X 00000000 


scco mp^dataf low. vwf 


B 回® 


Master Time Bar: 1.48844 uj 


: Pointer 31.4 ns Interval: *1 46 us Start 


End 


IL^O 


ft# 


1#2 


移 3 


移 36 


移 69 


4^102 


540 0 ns 


680.0 ns 


720 0 ns 


760.0 ns 


800.0 nd 


resetn 
mem c\\ 
clock 



inst 
aluout 
me mout 



I ~ i 


I~I 


I~l 


rn 



ri 


I ~ i 





000 ⑽ 4) ( )550555^ ㈤ 0002C 脚 00030 獅 o_OT5055§) 

4A8FFF FX5908555^^009FFFl)Q12AFFFF)^1493025)jTr49402^1463824)(> 0 AOQOOI^ 

OO 「 JFFFF)pgM^FFFFFFl)C)OmFFFiyFFFFFFl)fPFTO5O0OOOFFFF) ( pClOOCIOO2\ / 

00000000 


scco mp 一 dataflow, vwf 


s 回® 


Master Time Bar 1.48844 4 ► PoinJer: 314 ns Interval: -1.46 us Start: 


End 


U»>0 


1#1 


U>2 


办 36 


發 69 


©102 


BOO.O ns 


resetn 

memj^ 

clock 


840.0 ns 


880 0 ns 


920.0 ns 


960.0 ns 




_n_n^r^o_rm_ruT_njTT" 


inst 


QQ0QCi44>^OOQOiM^iQQQQO24 ；： (1 ： iOOOOO28X^CirjOO2 

8000008)(^^^4 A8FFF^(39085555)^)09FFFF)^WFF7)^1 493025^31494026) 


me mout 




I ~ 


.n 



I ~[ 



ri 



aluout 的 OOOOOOOXTOOOOOI XTOFFF^OClO AAA 汉 FFFFFF QQQ00FFF FyFFFFFFl^ FF F000Q 


niWiriiM 


m 5.22 笮岡期 CPU 仿真波形图 （4 〜 6) 
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scco mp_dataf low.vwf 


□回® 


Master Time Bar: |T48844 ut 小 | Pointer 31.4 ns Interval: [-1.46 us Start: 


End 



esetn 
mem cl 


I#2 


lock 



參 3 
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图 5.23 单周期 CPU 仿真波形图 （7 〜 9) 
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assign 

rom[5 f h05] 


32^h8c890000; 

// 

(14) 


lw 

r9, 

0(r4) 

assign 

romlb^OS] 

= 

32 f h01244022; 

// 

(18) 


sub 

r8 f 

r9. 

r4 

assign 

rom[5 f h07] 

= 

32 ， h20050003; 

// 

(lc) 


addi 

r5, 

r0. 

3 

assign 

rom[5’ h08] 

= 

32 f h20a5ffff; 

// 

(20) 

loop2 : 

addi 

rb, 

r5, 

-1 

assign 

rom[5 f h09] 

= 

32 f h34a8ffff; 

// 

(24) 


ori 

r8 f 

r5, 

Oxffff 

assign 

rom[5 f hOA] 

= 

32 f h39085555; 

// 

(28) 


xori 

r8, 

r8 f 

0x5555 

assign 

rom[5 f hOB] 

= 

32 ， h2009ffff; 

// 

(2c) 


addi 

r9 # 

r0 f 

-1 

assign 

rom[hOC] 

= 

32 f h312affff; 

// 

(30) 


andi 

rlO, 

r9. 

Oxffff 

assign 

rom[5 / hOD] 

= 

32 f h01493025; 

// 

(34) 


or 

r6 f 

rlO, 

r9 

assign 

rom[5 / hOE] 

= 

32 f h01494026; 

// 

(38) 


xor 

r8 f 

rl0 f 

r9 

assign 

rom[5 f hOF] 


32 f h01463824; 

// 

(3c) 


and 

rl, 

rlO, 

r6 

assign 

rom[5 # hlO] 

= 

32 f hlOaOOOOl; 

// 

(40) 


beq 

rb, 

r0 f 

shift 

assign 

rom[5 f hll] 


32 ， h08000008; 

// 

(44) 


_ 

D 

loop2 


assign 

rom[5’ hl2] 

= 

32 f h2005ffff; 

// 

(48) 

shift : 

addi 

r5 f 

r0 f 

-1 

assign 

rom[5'hl3] 

= 

32 ， h000543c0; 

// 

(4c) 


sll 

r8. 

rb, 

15 

assign 

rom[5 ， hl4] 

= 

32 ， h00084400; 

// 

(50) 


sll 

r8 f 

r8 # 

16 

assign 

rom[5 f hl5] 

= 

32 # h00084403; 

// 

(54) 


sra 

r8. 

r8 f 

16 

assign 

rom[5 f hl6] 

= 

32 # h000843c2; 

// 

(58) 


srl 

r8 f 

r8 f 

15 

assign 

rom[5 f hl7] 

= 

32^08000017; 

// 

(5c) 

finish: 

i 

D 

finish 


assign 

rom[5 f hl8] 

= 

32 ， h00004020; 

// 

(60) 

sum: 

add 

r8 f 

r0 # 

rO 

assign 

rom[5 f hl9] 

= 

32^80890000; 

// 

(64) 

loop: 

lw 

r9 f 

0 (r4) 

assign 

rom [5’ hlA] 


32^20840004; 

// 

(68) 


addi 

r4 # 


4 

assign 

rom[5 # hlB] 

= 

32^01094020; 

// 

(6c) 


add 

r8 f 

r8. 

r9 

assign 

rom[5 # hlC] 

= 

32 / h20a5ffff; 

// 

(70) 


addi 

r5. 

r5 # 

-1 

assign 

rom[5^hlD) 


32 f hl4a0fffb; 

// 

(74) 


bne 

r5 # 

r0. 

loop 

assign 

rom[5’ hlE] 

= 

32 f h00081000; 

// 

(78) 


sll 

r2. 

r8 f 

0 

assign 

rom[5 f hlF] 

= 

32 f h03e00008; 

// 

(7c) 


jr 

r31 




assign inst = rom[a(6:2]] ; 
endmodule 

以下的数据存储器代码只用于仿真。 

module scdatamem (elk, dataout, datain, addr, we, inclk, outclk); 


input 

[31:0] 

datain; 





input 

[31:0] 

addr ; 





input 


elk, we, inclk. 

outclk; 

§ 



output 

[31:0] 

dataout; 





reg [31:0] ram 

[0:31]; 





assign 

dataout 

=ram[addr[6:2]]; 




always 

@ (posedge elk) begin 





if 

(we) ram[addr] = datain; 





end 







integer 

• 

i ； 






initial 

begin 






for 

(i = 0; 

i < 32; i = i 4 

- 1) 





ram[i] 

= 0; 





ram[5'hl4] 

= 32 # h000000a3; 

// 

(50) 

data [0] 

0 十 A3 = A3 

ram^hlS] 

= 32^00000027; 

// 

(54) 

data[1] 

A3 + 27 = CA 
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ram[5 f hl6] = 32^00000079; // (58) data [2] CA + 79 = 143 
ram[5 f hl7] = 32^00000115; // (5c) data [3] 143 + 115 = 258 

end 

endmodule 

5.6 习题 

1. 列出单周期 CPU 的优缺点并加以说明。 

2. 用功能描述风格的 VerilogHDL 设计单周期 CPU 。 

友情 提示： 不需要 ALU 控制码，使用 case 语句对指令一条条处理。以下是处 
理三条指令 add 、 lw 和 beq 的例子。注意 case 语句的用法。虽然控制信号声明 
为 reg 类型，但实际上将产生组合逻辑。 

wire [5:0] opcode = inst[31:26]; 

wire [4:0] rs = inst[25:21]; 

wire [4:0] rt = inst[20:16]; 

wire [4:0] rd = inst[15:11]; 

wire [4:0] sa = inst[10:6]; • 

wire [5:0] func = inst[5:0]; 

wire [15:0] imm = inst[15:0]; 

wire [25:0] addr = inst[25:0]; 

wire sign = inst[15]; 

wire i_add = (opcode == 6 f hOO) & (func == 6 f h20); // add 

wire i 一 lw = (opcode == 6 f h23); // lw 

wire i 一 beq = (opcode == 6 f h04); // beq 

wire [31:0] pc_plus 一 4 = pc + 4; 

reg [31:0] pc; // program counter 

always @ (posedge clock or negedge resetn) begin 

if (resetn == 0) pc <= 0; 
else pc <= next_pc; 

end 

reg [31:0] regfile [1:31]; // registers 
always @ (posedge clock) begin 

if (wreg && (dest 一 rn != 0)) 

if (i_lw) 

regfile[dest—rn] <= d—f_mem; // data from mem 

else 

regfile[dest—rn] <= ALU_out; // ALU output 

end 

wire [31:0] a = (rs == 0) ? 0 : regfile[rs]; 
wire [31:0] b = (rt == 0) ? 0 : regfile[rt]; 
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reg wreg, wmem; // write enables 
reg [31:0] ALU_out; // ALU output 

reg [4:0] dest 一 rn; // destination register number 
reg [31:0] next_pc; // next PC 
always @(*) begin 
ALU 一 out = 0; 
dest—rn = rd; 
wreg = 0; 
wmem = 0; 
next 一 pc = pc 一 plus_4; 
case (l f bl) 

i 一 add: begin // add 

ALU_out = a + b; 
wreg = 1; 

end 

i 一 lw: begin // lw 

ALU 一 out = a + {{16{sign}} f imm}; 
dest 一 rn = rt; 
wreg = 1; 

end 

i—beq: begin // beq 

if (a == b) 

next_pc = pc_plus_4 + 

{{14{sign}},imm,2 f bOO}; 

end 

default : ; // this is required 
endcase 

end 

3. 随便用什么语言写一个汇编器，把用本章实现的20条指令书写的汇编程序自 
动转换成 Altera 的 M 1 F 格式。 提示： 汇编器需要对汇编程序两遍 扫描： 第一 
遍建立地址标号的符号表。符号表中包括标号的名称和它们所对应的存储器地 
址。第二遍根据符号表中的地址生成条件转移或无条件跳转指令中的偏移量或 
地址。编译器也至少需要两遍扫描。 

4. 上一习题再往前走一步，用高级语言程序仿真汇编程序的执行。允许输出是简 
单的文本方式。 

5. 上一习题再往前走一步，使用 X ( 图形)。要有汇编器和反汇编器。 

6. 上一习题再往前走一步，把 CPU 内部的硬件电路也以图形的方式显示出来。 
当然，各部分电路的仿真结果也要显示。 

7. 还能再往前走吗？能，边仿真边做性能评价。不妨一试。 

8. 实现所有 MIPS 32 的整数指令，新加的指令要出现在测试程序中。 MIPS 32 的指 
令描述请参阅文献【 22 , 23 , 24 】。 



异常或中断处理程序 



X 停止当前程序的执行 



图 6.1 异常或中断的响应过程 

溢出是一种常见的异常。溢出是指计算结果太大或太小而无法正确表示。例如 
32位补码表示的数据可以表示的数的范围是一 2 31 〜+2 31 — 1。如果计算结果大于 
+2 31 一 1或小于一2 31 ,则出现溢出。再比如浮点运算的结果太大或太小、除数为0 
或者对负数开方等，也会引起异常的出现。还有一种可能的情况就是取来的指令不 


第6章异常和中断处理及其电路实现 

在程序的执行过程当中，有时会出现预想不到的情况，比如计算结果的溢出、 
用于地址转换的 TLB 不命中等。另外，外部设备也可能向 CPU 发出信号，要求 CPU 
为它提供服务。前者称为异常，后者称为中断。本章介绍 CPU 如何处理异常和中 
断，并给出相应的硬件设计及 Verilog HDL 代码。 

6.1 异常和中断 

本节讨论异常和中断的基本概念以及处理异常和中断的基本方法。 

6.1.1 异常和中断的定义与类型 

异常 ( Exception ) 和中断 ( Interrupt ) 是两种不可预知的事件，它们干扰程序的正 
常执行流程。异常来自于 CPU 的内部，比如做除法时除数为0;而中断来自于 CPU 
的外部，比如键盘中断。因此，如果我们分别称异常和中断为“内部同步异常”和 
“外部异步中断”，则更能反映岀它们的准确含义。 

当一个异常或一个中断出现时， CPU 应该停止当前程序的执行、转去执行预先 
准备好的程序去处理这个异常或中断。这个过程称为异常或中断响应。被执行的程 
序称为异常或中断处理程序，通常驻留在操作系统的内核。 

依异常或中断的种类不同，异常或中断处理程序执行的最坏的结果可能是输岀 
一些信息然后停机，最好的结果可能是做一些适当的处理然后恢复执行被停止的程 
序。图 6.1 示出了后一种情况的流程。 


令卜 

指现 

出 

断 

中 

或 

常 

异 


正常的指令执行流程 
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知道是什么意思，即指令操作码 出错； 或者取来的指令是一条意义明确的指令，但 
硬件没有实现它，而是通过调用子程序来实现它的功能；或者用户程序试图执行一 
条只有操作系统才有权利执行的特权指令。 

其他的异常包括存储器地址没对准、存储器页失效 ( CPU 要访问的内容不在存储 
器中，这是虚拟存储器管理中经常出现的正常情况)、存储器违法访问（用户程序往操 
作系统区域写数据)、断点和单步执行（为方便程序调试而设置）等。 

正常的系统调用有时也被归于异常。系统调用是一条指令，用户程序通过它来 
享受操作系统提供的服务。由于是一条指令，它便不是不可预知的事件，而是可以 
预知的。但对系统调用指令的处理与对通常的异常和中断的处理非常类似，因此我 
们也把它算作异常。 

外部中断也有很多种情况，比如键盘中断、鼠标中断、打印机中断等。这些中 
断的共同特点是 I / O 设备要求 CPU 关照它们一下。另外还有计时器 ( Timer ) 的中断和 
硬件故障中断等。 

6.1.2 査询中断和向量中断 


图 6.1 给出了异常或中断的响应过程。那么一个问题出 现了： 如何从当前执行的 
程序跳转到异常或中断处理程序？有两种 方法： 查询中断 (Polled Interrupt ) 和向最中 
断 (Vectored Interrupt )。 


1. 查询中断 

当异常或中断发生时， CPU 跳转到一个固定的地址，从那里开始査询到底出 
了什么状况，再转去执行相应的异常或中断处理程序。这个固定的地址可以用硬布 
线实现，这样就是真正意义上的固 定了： CPU 芯片做好了以后，想修改这个地址也 
没有办法了。也可以稍微灵活一些，设置一个人口地址寄 存器： 当异常或中断发生 
时，把这个寄存器的内容打入程序计数器 PC 。 CPU 可以使用指令往这个寄存器写入 
不同的内容来修改这个人口地址。 

但是，无论是硬布线还是使用入口寄存器，入口只有 一个： 不管现在发生的异 
常或中断是何种类型， CPU 都跳转到同一个地方开始执行程序。那么 CPU 如何知 
道已经发生的是什么异常或中断并如何做出相应的处理呢？这就需要有额外的信息 
了。我们可以设置一个专门的寄 存器： 当有异常或中断发生时，硬件能自动把发生 
源的信息记录到这个寄存器。 CPU 可以在入口处读取这个寄存器，立刻就知道了是 
谁要引起“暴乱”，然后转移到专门的程序去对付它 。 MIPS CPU 采用的基本上就是 
这种查询中断方式。 MIPS 称这个寄存器为 Cause 寄存器，见图6.2。 


31 30 29 28 27 24 23 22 21 16 15 8 7 6 



0 






IP[7:0] 

0 

ExcCode 

wm 


图 6.2 MIPS Cause 寄存器 (CP0 寄存器 13, 只列出了与异常或中断有关的位 ) 
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MIPS 定义了很多这种类型的寄存器，统称为 CPO (Coprocessor 0) 寄存器 。 Cause 
寄存器中第6到第2位的 ExcCode 是引起异常或中断事件的代码、 IP [7:0] 指出有哪 
些中断在门口等着接见呢。我们顺便展示一下 ExcCode , 看看 MIPS CPU 能处理哪些 
异常，见表6.1。有些异常的意义目前看不懂也没关系。 


表 6.1 MIPS Cause 寄存器中 ExcCode 的定义 


ExcCode 值 

助记符 

种类 

描述 

0 

Int 

中断 

中断 (IP[7:0] 指出中断源） 

1 

Mod 

异常 

TLB 项卩 1 ；配但存储器贞还没被写过（存数据时） 

2 

TLBL 


TLB 项不卩 1 ；配或无效（取数据或取指令时） 

3 

TLBS 

异常 

TLB 项不匹配或无效（存数据时） 

4 

AdEL 

异常 

存储器地址错（取数据或取指令时） 

5 

AdES 

异常 

存储器地址错 ( 存数据时） 

6 

IBE 

异常 

总线错 ( 取指令时） 

7 

DBE 

异常 

总线错 ( 取数据或存数据时） 

8 

Sys 

异常 

执行系统调用指令 

9 

Bp 

异常 

执行断点指令 

10 

RI 

异常 

试图执行保留的指令 

11 

CpU 

异常 

协处理机不能用 

12 

Ov 

异常 

算术操作时结果溢出 

13 

Tr 

异常 

执行陷阱指令 

14 

— 

— 

保留 

15 

FPE 

异常 

浮点操作结果不正确 

16〜22 

一 

— 

保留 

23 

WATCH 

异常 

虚拟地址与 Watch 寄存器的内容一致了 

24 

MCheck 

异常 

TLB 项匹配了不止一个，但不一致 

25〜29 

— 

一 

保留 

30 

CacheErr 

异常 

Cache 出错 

31 

一 

一 

保留 


以下的汇编程序演示 MIPS CPU 如何转到相应的程序去处理异常或中断。这里 

用到了一个事先准备好的散转表，其内容是处理各异常和中断程序的入口地址。散 
转表在存储器中的起始地址是 exc . tab . base , % hi ( exc _ tab - base ) 和 % 1 ow ( exc . tab . base ) 

分别是 excJab . base 的高 16 位和低 16 位。 $ k 0 和 $ kl 分别是寄存器 r 26 和 r 27。 


lui $k0, 
mfc0 $kl, 
andi $kl, 
add $k0 # 
lw $k0, 
jr $k0 


%hi(exc — tab_base) 
CO 一 CAUSE 
$kl f 0x7c 
$k0 f $kl 

%low(exc—tab 一 base) 


# exc_table_base 是散转表的起始地址 
# 把 Cause 寄存器的内容送到寄存器 r2 7 
# 第 6 〜 2 位是引起异常或中断的代码 
#找到散转表相应的地址 
($k0) #从散转表中取出入口地址 

#跳转到相应的程序去处理异常或中断 
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2. 向量中断 

在向 M 中断方式中，引起异常或中断的“暴乱分子”自报家门，告诉警察“我是 
谁”。这个“我是谁”就是向 M 中断名称中的“向量”。然后有两种办法转移到异常 
或中断处理程序。先说第 一种： 见图 6.3( a ), CPU 硬件把这个向 M 放在中间，在它的 
左边和右边填上适当的数据，三部分合起来形成一个地址，把这个地址打人程序计 
数器 PC 中，这样就直接跳转到相应的入口去处理异常或中断。为什么还要在向 M 的 
两端填上数据再写入 PC ? 答案是“暴乱分子”没有那么多，只是“极少数”，否则就 
别干别的了 。 SUN SPARC CPU 采用的就是这种办法。 



( a ) 向量中断方法1 ( b ) 向量中断方法2 


图 6.3 向量中断 

再说向量中断的第二种办法。见图 6.3( b )， CPU 硬件也是把这个向量放在中 
间，在它的左边和右边填上适当的数据，三部分合起来形成一个地址。下边请注意 
了： CPU 不是把这个地址打入程序计数器 PC 中，而是使用它访问存储器，把从存储 
器取来的数据打入 PC。Intel x 86 CPU 大抵就是这么干的。 

3. 中断返回 

还有一件重要的事情没说呢。为使“受灾地区”恢复正常的生活秩序，我们必 
须要使 CPU 在处理完异常或中断后，返回到当初被打断的程序继续执行。怎么返 
回？要返回总要有地址啊。因此，在转向异常或中断处理程序时，不要忘记把返回 
地址保存到一个安全的地方。这个地方大有讲究。有些 CPU 的作法是把返回地址保 
存到一个通用寄存 器中； 有些 CPU 的作法是设置一个专门的寄存器，用于保存返回 
地址，比如 MIPS CPU 中的 EPC 寄 存器； 有些 CPU 则是把返回地址保存到存储器堆 
栈。既然是堆栈，那么栈顶指针应该能够自动调节 。 Intel X 86 CPU 采用的就是这种 
办法。 

MIPS CPU 所保存的“返回地址”有所 不同： 内部异常发生时，返回地址是引起 
异常的指令的地址 （ PC )， 这是因为引起异常的指令可能需要重新执行，见图 6.4( a )。 
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而外部中断发生时，返回地址是下一条指令的地址 ( NPC ), 因为外部中断发生时，当 
前 PC 所指的指令要执行完毕后，才转去执行异常或中断处理程序，见图 6.4( b )。 



(a) 异常发生时保存返回地址 （ b) 中断发生时保存返回地址 


图 6.4 MIPS CPU 保存返回地址 


MIPS CPU 使用 eret 指令从异常或中断处理程序 返回： 把 EPC 的值写回 PC 。 因 
此，当某些引起异常的指令不需要重新执行时，返回之前要把 EPC 加4,见下面的 
代码。当然，如果需要重新执行，就不用加4 了。 

mfcO $kO, CO_EPC # 把 EPC 寄存器的内容送到寄存器 r2 6 

addiu $kO, $kO f 4 # 加 4 

mtcO $k0 / CO_EPC # 送回 EPC 寄存器 

eret # 从异常处 理程序 返回： PC <-- EPC 

以上把异常或中断统统比喻为“暴乱分子”可能不太恰当，因为有些异常或中断 
是非常友善的。我们可以把有些异常或中断当成“上访”，有些当成是一般“市民” 
要求“政府”提供服务，而有些则是为“政府”提供服务。当然，硬件故障中断绝对 
属于暴乱，搞不好会使计算机系统瘫痪。 


6.1.3 中断屏蔽和中断嵌套 


执行中断处理程序时又出现中断请求怎么办？通常的做法是进人中断处理程序 
时就自动屏蔽中断，即“关中断”：来了中断 CPU 也不理睬。如果 CPU 想理睬呢？ 
这就需要“开中断’’。图 6.5 示出了 MIPS CPU Status 寄存器中有关中断屏蔽的控制 
位。 IM [7:0] 中的每一位控制一个 中断： 为0时禁止中断，为1时允许中断(不叫中断 
屏蔽，叫中断允许也许更贴 切)； IE 是 IM [7:0] 的老板，老板说“关”，你们“开”也 
没用。注意， Status 寄存器名为“状态”，干的活儿却基本上是“控制”。总是感觉 
MIPS 中有些名称和定义有点怪怪的，包括 TLB 的控制方式和有些指令的格式。 
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28 27 26 25 24 23 22 21 20 19 18 17 16 15 


7 6 5 4 3 2 



IM[7:0] 


6.5 MIPS Status 寄存器 (CPO 寄存器 12, 只列出了与中断屏蔽有关的位 ) 
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在处理当前的中断时又去响应新的中断，我们称其为中断嵌套 (Interrupt Nest ¬ 
ing ), 如图 6.6 所示。只有开了中断才会嵌套。开中断前要把“现场”保存好，尤其 
是专用寄存器或通用寄存器中的返回地址。如果返回地址在存储器堆栈中，则没有 
必要再保存它。为什么呢？ 

響 

用户程序 中断处理程序 中断处理程序 中断处理程序 


中断一^ 


图 6.6 中断嵌套 

6.1.4 中断优先级 

如果有多个外部中断同时向 CPU 发出请求， CPU 响应哪一个呢？答案是响应优 
先级高的那一个。如何区分它们的优先级呢？方法是首先“排排队”，然后才“吃果 
果”。好像在第2章的习题中有一道题要你设计一个优先级编码器，不知道做了没 
有。把它用在中断控制器的设计中就能选择一个优先级较高的中断，见图 6.7 的中断 
控制器的示意图。图中 intr 是中断请求、 inta 是中断确认、 vector 是中断向量。 

CPU int-controller 


外部异步 
中断请求 


图 6.7 给8个中断源进行优先级编码从而选出优先级最高的中断请求 

如果你真的没做那道题，没关系。图 6.8 有一道题正好等着你 做呢： 请设计图中 
的 DaisyChain 电路。图中 intr 是中断请求、 inta 是中断确认。 

千万要注意上边的非门一定要用漏极开路的 ( TTL 中集电极开路的)，这样输出 
才能接在一起，否则电路就烧坏了。在 QuartusII 中使用漏极开路门的例子如下。关 
键器件是 opndrn (Open Drain ) ,它是一个漏极开路的缓冲器。这段 Verilog HDL 代码 
仅供参考，它只是演示3个输出如何接在一起。 

module high 一 z—oc (ini,in2,in3,outl 〉 ； 

input inl,in2,in3; // three input signals 
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CPU 



°< 



漏极幵路的反向门 


DaisyChain 


DaisyChain 


DaisyChain 




阁 6.8 串行中断优先级査询 ( Daisy - Chain ) 


output outl; // one output signal 

wi re not 一 1 一 out, not—2 一 out, not 一 3—out; 
not not 」 （ not—1 一 out, ini); 
not not—2 (not 一 2 一 out f in2); 

not not 一 3 (not—3 一 out,in3); 

// opndrn is an open-drain buffer 
opndrn ocl (•in(not 一 1 一 out), •out(out1)> ; 
opndrn oc2 (.in(not—2 一 out), .out (out1)); 
opndrn oc3 (.in (not 一 3 一 out), .out(out1)); 
endmodule 


6.2 带有异常和中断处理功能的 CPU 的设计 


本节具体设计带有异常和中断处理功能的 CPU 。 本书的目的不是实现 MIPS 体 
系结构的所有功能，因此我们做了很大的简化。有些具体的实现也不保证与 MIPS 体 
系结构完全兼容。我们做如下假定。 

1) 只有一个外部中断 请求； 

2) 只处理3个 异常： 结果溢出、出现未实现的指令以及系统 调用； 

3) 返回 地址： 异常时保存当前指令的地址，中断时保存下一条指令的 地址； 

4) 采用查询中断 方式； 

5) 响应异常或中断时把 Status 寄存器的内容左移4位自动关中断(本书的做 法)； 

6) 中断返回时把 Status 寄存器的内容右移4位(恢复原来的内容)。 


6.2.1 异常和中断的处理过程以及相关的寄存器 


CPU 响应一个内部同步异常或外部异步中断时，有以下4件事情要同时做。注 
意这些动作都是由硬件完成的，因此设计硬件时，我们要实现这些功能^ 


1) 把返回地址保存到 EPC 寄存器中，以便处理完异常或中断后 返回; 
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2) 把引起异常或中断的原因自动记录到 Cause 寄存器 （ ExcCode 域)； 

3) 把 Status 寄存器中的中断屏蔽位左移4位（自动关中 断)； 

4) 把一个固定的地址（异常和中断处理程序的人口地址）写人 PC 。 

如果是中断请求 intr , CPU 还要发出中断确认 inta 。 异常或中断处理程序可以读 
取 Cause 寄存器的内容来确认到底发生了什么事件，依此再跳转到相应的程序去对 
异常或中断进行处理。 

处理完毕后， CPU 要返回到原来被打断的地方继续执行。返回靠执行 eret 指令 
实现。该指令要完成的动作有 两个： 把 EPC 的内容写回到 PC ; 与此同时，把 Status 
寄存器中的内容右移4位(恢复原来的中断屏蔽设置)。 


4 3 2 1 0 


Cause (#12): 

Unused 


ExcCode 0 

31 8 7 4 3 0 

Status (#13): | 

Unused 

S[3:0] 

IM[3:0] 

31 


0 

0 

EPC (#14): | 

EPC 


__ 1 


图 6.9 与异常和中断处理有关的3个寄存器 

图 6.9 示出的是上面提到的3个寄存器。它们都属于 CP 0 寄存器，每个寄存器 
都有一个号码，以便 CPU 使用 mfcO 或 mtcO 指令访问它。引起异常或中断的原因在 
Cause 寄存器的 ExcCode 中，其编码见表6.2。 Status 寄存器中的 IM [3:0] 是4位屏蔽 

位，每位对应一个异常或中断。再说一遍，屏蔽位为1时允许异常或中断、为0时 
禁止。 S [3:0] 是左移4位的 IM [3:0]。 EPC 用于保存返回地址。 


表 6.2 ExcCode 及 IM [3:0] 的定义 


ExcCode 值 

助记符 

种类 

屏蔽 

描述 

0 

Int 

中断 

IM [0] 

外部中断 

1 

Sys 

异常 

IM [1] 

执行系统调用指令（多正常啊） 

2 

Unimpl 

异常 

IM [2] 

试图执行没冇实现的指令 

3 

Ov 

异常 

IM [3] 

算术操作时结果溢出 


6.2.2 与异常和中断有关的指令 

引起算术计算结果溢出的指令有3 条： add 、 sub 和 addi 。 这3条指令都是对带 
符号数进行计算。实际上对 ALU 来讲只有加减运算，因为 ALU 并不区分是 add 还 
是 addi 。 MIPS 还有对无符号数进行计算的指令，比如 addu 。 即使结果溢出，这类指 
令也不产生异常。表 6.3 列出了在什么情况下溢出 （v = 1), 其中 a [31] 和 b [31] 分别 
是补码表示的32位操作数 a 和 b 的最 髙位； r [31] 是计算结果的最高位。 
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表 6.3 加减操作的溢出 


操作 

aluc [3:0] 

a [31] 

b [31] 

r [31] 

V 

解释 

ADD 

xOOO 

0 

0 

1 

1 

正数加正数结果反而为负数 

ADD 

xOOO 

1 

1 

0 

1 

负数加负数结果反而为正数 

SUB 

x 1 00 

0 

1 

1 

1 

正数减负数结果反而为负数 

SUB 

x 1 00 

1 

0 

0 

1 

负数减正数结果反而为正数 


根据表 6.3, 我们直接写出溢出信号 v 的逻辑表达式 (Verilog HDL 格 式)： 

v : -aluc[2] & *a[31] & ^b[31] & r[31] & ^aluctl] & - aluc[0] | 

•aluc[2] & a[31] & b[31] & [31] & 一 aluc[l] & ^aluctO] | 

aluc[2] & "a[31] & b[31] & r[31] & ^aluctl] & _aluc[0] | 

aluc[2] & a[31] & ^b[31] & ^r[31] & ^aluc[l] & ^aluc[0] ; 

以上判断溢出的方法是最直接的，但也是最笨的方法。有一种非常简单的方法 

能得到非常简单的 V 的逻辑表达式，请读者试试看，能不能写岀来。 

CPU 可以使用 mfcO rt , rd (Move from CO ) 和 mtcO rt，rd (Move to CO ) 指令读写寄 

存器 Cause、Status 或 EPC 。 这两条指令中的 rt 是通用寄存器的号码， rd 是寄存器 
Cause、Status 或 EPC 的号码。我们还需要有系统调用指令 syscall 和从异常或中断返 
回的指令 eret 。 以上4条指令的格式见图6.10。 
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阁 6.10 mfcO 、 mtcO、syscall 和 eret 指令的格式 


6.2.3 带有异常和中断处理功能的 CPU 总体结构 


经过以上的讨论，我们已经搞清楚了处理异常或中断的机制。在第5章，我们 
已经给出了单周期 CPU 的详细电路。在此基础上，我们加入异常和中断处理部分的 
电路。一种带有异常和中断处理功能的单周期 CPU 的总体电路如图 6.11 所示。 

图 6.1 1 中新加了 3 个 CP0 寄存器 （ Status、Cause 和 EPC ) 以 及对它们进行读写所 
需要的电路（主要是多路选择器)。另外新加的电路是 PC 值的选择。除原来的之外， 
我们还应实现向异常或中断处理程序的跳转及返回。所有新加的电路所需的控制信 
号要由控制部件产生。 

现把电路的工作过程说明如下。先说 mfcO 和 mtcO 两条指令的执行状况 。 mfcO 
指令把 Status 、 Cause 或者 EPC 寄存器中的数据写人通用寄存器堆。寄存器数据的选 
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exc 


mtcO 


sta .right 
staJeft 



sta 


data 


Status 


mtcO 


wcau 


cause 



cau 


data 


Cause 


pc 

npc 



EPC 


epc 


阁 6.11 带有处理异常或中断功能的单周期 CPU 


择由图中最右边的四选一多路器完成，选择信号为 mfcO。mtcO 指令把通用寄存器堆 
中的一个寄存器的内容写入 Status、Cause 或者 EPC 寄存器。相应的写使能信号分别 
为 wsta、wcau 和 wepc 。 三个寄存器左边的二选一多路器的选择信号均为 wtcO 。 这 
时的 wtcO 应为1，选择寄存器堆的 qb 的输出，即图中命名为 data 的数据。 

再说异常或中断发生时的情况。如果是外部中断，输入管脚 intr 为1;如果是溢 
出， ALU 的输出信号 v 为1，送到控制 部件； 通过对当前指令译码，可知是否为未 
实现的指令或者 syscall 指令。总之控制部件知道是否出现了异常或中断。这时要使 
用 Status 寄存器的信息 sta 来査看相应的异常或中断是否被屏蔽。如果异常或中断出 
现了且没被禁止，控制部件生成 ExcCode ， 经由 cause 信号送给 Cause 寄存器左边的 
多路器。这时多路器的选择信号 mtcO 应为0，以把 cause 数据写入 Cause 寄存器。 
如果读者读到这里问这时正在执行 wtcO 指令，而且也要往 Cause 寄存器中写数据怎 
么办，到底选哪一个？能提岀这样的问题说明读者的段位已经相当髙了。办法有一 
个： 在执行 wtcO 指令前关掉所有的中断和异常。 
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不光是 Cause 寄存器，其他两个寄存器在异常或中断发生时也有数据要写人。 
往 EPC 中写入的是返回地址。中断时返回地址是下一条指令的地址，即图中的 npc; 
异常时返回地址是引起异常的指令的地址，即图中的 pc 。 选 pc 还是 npc 由 ima 决 
定。 ima 是 CPU 的输出信号，意义为中断确认(或中断回答或中断应答等，总之是英 
文 Interrupt Acknowledgement 的意思)。往 Status 寄存器写入的是 Status 寄存器左移 4 

位后的内容，即图中的 S ta 」 eft 。 由于 Status 寄存器的最低 4 位是异常或中断屏蔽位， 
左移 4 位再写入相当于既保存了原来的屏蔽信息又禁止了异常或中断(左移后最低 4 
位填 0 )。因此，左下角的多路器的选择信号 exc 应为 1， 选择 staJeft 。 当然还要修改 
PC , 以实现向异常或中断处理程序的转移。这时， PC 数据输入端的多路器的选择 
信号 selpc 应为2，选择 base 地址。这个 base 是“硬布线”的地址，也就是异常或中 
断处理程序的入口。 

现在该讲如何从异常或中断返回了。 CPU 执行 eret 指令实现返回。执行这条 
指令时， CPU 把 EPC 的内容写入 PC ， 因此 selpc 应为1,以便选择 epc 。 与此同 
时， Status 寄存器的内容要右移4位，即图中的 sta _ right ,恢复它原来的真面目。怎 
么样？可以开始开发 CPU 的 VerilogHDL 代码了吧。 

6.2.4 带有异常和中断处理功能的 CPU Verilog HDL 代码 


CPU Verilog HDL 代码与第 5 章的代码有类似的架构，只是在最顶层加了两个 
信号： 中断请求 intr (输人信号）和中断确认 ima (输出信号)。最顶层代码调用3个模 
块： CPU 模块 ( sccpu _ intr ) 、指令存储器模块 ( sci _ intr ) 和数据存储器模块 ( scd _ intr )。 

module sc 一 interrupt (clock, resetn, inst,pc,aluout,memout,menuclk,intr,inta); 
input clock,resetn,mem—elk,intr; 
output [31:0] inst,pc,aluout,memout; 
output inta; 
wire [31:0] data;. 
wire wmem; 

sccpu 一 intr epu (clock,resetn,inst,memout,pc,wmem,aluout,data,intr,inta); 
sci 一 intr imem (pc,inst); 

sed 一 intr dmem (clock,memout,data,aluout,wmem,mein—elk,mem—clk); 
endmodule 

以下是 CPU 模块的代码。控制部件和 ALU 重新设计 过了： 

module sccpu 一 intr (clock,resetn,inst,mem,pc,wmem,alu,data,intr,inta); 
input [31:0] inst f mem; 
input clock,resetn,intr; 

• output [31:0] pc,alu,data; 
output wmem,inta; 

parameter EXC 一 BASE = 32 / h00000008; // = base = BASE 

wire [31:0 】 p4,bpc,npc,adr,ra,alua,alub,res,alu 一 mem; 
wire [3:0] aluc; 
wire [4:0] reg 一 dest,wn; 



6.2 带有异常和中断处理功能的 CPU 的设计 


169 


wire [1:0 】 pcsource; 

wire zero, wmem,wreg,regrt,m2reg,shift ， aluimm f jal ， sext ， overflow; 
wire [31:0] sa = {27’bO,inst[10:6]}; 

wire [31:0] offset = {imm[13:0] , inst[15:0],1 # b0 # 1 # bO}; 
sccu 一 intr cu (inst[31:26 】， inst[25:21] , inst[15:11 】， inst[5:0],zero,wmem, 
wreg,regrt,m2reg,aluc,shift,aluimm,pcsource,jal,sext, 
intr,inta,overflow,sta,cause,exc,wsta,wcau,wepc,mtcO,mfcO,selpc); 
wire e = sext & inst[15]; 
wire [15:0] imm = {16{e}}; 
wire [31:0] immediate = {imm # inst[15:0]}; 
dff32 ip (next^pc,clock,resetn,pc); // next_pc 
cla32 pcplus4 (pc,32’h4,1’bO,p4); 
cla32 br 二 adr (p4,offset,1’bO,adr); 

wire [31:0] jpc = {p4[31:28],inst[25:0],1’bO,1’bO}; 

mux2x32 alu_b (data,immediate,aluimm,alub); 

mux2x32 alu—a (ra,sa,shift,alua>; 

mux2x32 result <alu,mem,m2reg,alu—mem); 

mux2x32 link <alu_mem—cO,p4,jal,res); // alu 一 mem 一 cO 

mux2x5 reg—wn (inst[15:11],inst[20:16 】， regrt,reg 一 dest); 

assign wn = reg 一 dest I {5{jal}}; // jal : r31 < ― p4; 

mux4x32 nextpc (p4,adr,ra,jpc,pcsource,npc); 

regfile rf (inst[25:21 】， inst[20:16 ], res, wn, wreg, clock, resetn, ra, data); 
alu 一 ov al 一 unit (alua,alub,aluc,alu,zero,overflow); 

CPU 模块新加的与异常或中断有关的电路 ： 3 个寄存器和7个多 路器： 

wire exc,wsta,wcau,wepc,mtcO; 

wire [31:0] sta, cau, epc,sta_in,cau—in,epc — in, 

sta 一 11 一 aO,epc—ll — a0,cause,alu 一 mem 一 cO,next_pc; 
wire [1:0] mfcO,selpc; 

dffe32 cO 一 Status (sta 一 in,clock,resetn,wsta,sta); // Status register 
dffe32 cO 一 Cause (cau—in,clock,resetn,wcau,can}; // Cause register 

dffe32 c0—EPC (epc 一 in,clock,resetn,wepc,epc}; // EPC register 

mux2x32 sta—ll (sta 一 ll_a0,data,mtcO,sta 一 in}; // for Status 

mux2x32 sta 一 12 ({h0/sta[31:4] }, {sta 【 27 :0],4’ hO},exc,sta—11—aO); 
mux2x32 cau 一 11 (cause,data,mtcO,cau 一 in>; // for Cause 

mux2x32 epc—ll (epc_ll—aO,data,mtcO,epc — in}; // for EPC 

mux2x32 epc 一 12 (pc,npc,inta,epc_ll_a0}; 

mux4x32 irq_pc (npc,epc,EXC 一 BASE,32'hO,selpc,next_pc); // for PC 
mux4x32 fromcO (alu—mem,sta,cau,epc,mfcO,alu 一 mem—cO); // for mfcO 

endmodule 

控制部件，重点是与异常或中断有关的 译码： 

module sccu 一 intr (op,opl,rd,func,z,wmem,wreg,regrt,m2reg,aluc, 

shift,aluimm,pcsource,jal,sext, 

intr,inta,ov,sta,cause,exc,wsta,wcau,wepc,mtcO,mfcO,selpc); 
input [5:0] op,func; 
input [4:0] opl,rd; 
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input z; 

output wreg,regrt , jal,m2reg,shift f aluimm,sext/wmem; 
output [3:0] aluc; 
output [1:0] pcsource; 

与异常或中断有关的 信号： 

input intr,ov; 

input [31:0] sta; // IM[3:0] : ov,unimpl,sys,int 

output inta f exc,wsta,wcau,wepc,mtcO; 
output [1:0] mfc0,selpc; 
output [31:0] cause; 

区别异常和中断的类型，4 种： 外部中断、系统调用、未实现的指令以及溢出。 

wire overflow = ov & (i_add | i_sub | i 一 addi); 

assign inta = int 一 int; 

wire int—int = sta[0] & intr; 

wire exc_sys = sta [ 1] & i—syscall; 

wire exc—uni = sta[2] & unimplemented_inst; 

wire exc 一 ovr = sta[3] & overflow; 

assign exc = int 一 int | exc—sys | exc 一 uni | exc—ovr; 

产生 ExcCode : 00: 外部中断、 01: 系统调用、 10: 未实现的指令、11:溢出。 

wire ExcCodeO = i—syscall | overflow; 

wire ExcCodel = unimplemented 一 inst | overflow; 

assign cause = {28 f hO,ExcCodel,ExcCodeO,2 f b00}; 

产生 3 个寄存器的写使能 信号： 

assign mtcO = i 一 mtcO; 

assign wsta = exc | mtcO & rd—is—status | i—eret; 

assign wcau = exc | mtcO & rd 一 is—cause; 

assign wepc = exc I mtcO & rd 一 is 一 epc; 

执行 mfcO 指令时选择寄存器 ： 00: 原来的、 01: Status 、 10: Cause 、 11: EPC 0 


wire 

rd_ 

_is_ 

.status = 

(rd == 

5 ， dl2); 

// 

cpO 

Status register 

wire 

rcL 

.is. 

一 cause = 

(rd == 

5 f dl3); 

// 

cpO 

Cause register 

wire 

rcL 

.is. 

_epc = 

(rd == 

5^14); 

// 

cpO 

EPC register 


assign mfcO[0] = i 一 mfcO & rd 一 is 一 status | i_mfc0 & rd_is_epc; 
assign mfcO[1] = i — mfcO & rd — is 一 cause | i 一 mfcO & rd 一 is_epc; 

PC 的选择 ： 00: 原来的、 01: EPC 、10: 异常或中断处理程序的入口。 

assign selpc[0] = i 一 eret; 
assign selpc[1] = exc; 

对新加的 4 条指令译码以及确定是否为未实现的 指令： 
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wire cO—type= ^op[5] & op[4 ] & ~op [3] &~op [2] & ~op [1] &^ op [ 0 ]; 

wire i—mfcO = cO_type &’opl[4] & ^opl [3] & "*opl [2] & 'opl [ 1 ] & ^opl [ 0] ; 

wire i 一 mtcO = cO 一 type & ^opl [ 4 ] & ~opl [3] & opl [2] & 一 opl[l] & ^*opl [ 0] ; 

wire i_eret = cO 一 type & opl[4 】 & ~opl [3] & ~opl [2] &’opl[l] & 一 opl[0]& 

~func[5] & func [4 ] & func [3] & "*func [2] &^func [1] & ~func [0]; 
wire i_syscall = r 一 type & ~ func[5] & 'func[4] & func[3] & func[2] & 

•func[l] &-func[0]; 

wire unimplemented 一 inst = - (i—mfcO | i—mtcO | i 一 eret | i—syscall | 

i 一 add I i 一 sub I i—and | i_or | i_xor | i 一 sll | i—srl | 

i—sra I i_jr | i 一 addi I i 一 andi | i 一 ori | i 一 xori | i_lw | 

i—sw I i 一 beq I i 一 bne | i 一 lui | i 一 j I i 一 jal); 

以下与第 5 章的内容基本相同，只是顾及了 mfcO 指令： 

wire retype = ~|op; 

wire i 一 add = r—type& func[5]& ^ func[4] & 'func[3]& ~func[2]&~func[1]&'func[0]; 

wire i — sub = retypes func[5]& ~ func[4]&'func[3]& ^ func[2] & func[1 】 & ~func[0 】 ； 

wire i 一 and = r_type& func 【 5】 & ~ func [ 4 ] & ' func [3] & func [2 ] & "* func [ 1 ] & ^ func [0 ]; 

wire i 一 or = retypes func [5] &' func [ 4 ] & "* func [3] & func [2 ] & ~ func [ 1 ] & func [0]; 

wire i 一 xor = r 一 type& func[5]&'func[4]&'func[3] & func[2】& func(1] & "func[0]; 

wire i_sll = r 一 type&~func [5] & *"func 【 4] & **func [3] & ^func [2] &'func [ 1 ] &~func [0]; 

wire i—srl = r 一 type&~func[5] & 'func 【 4Wfunc[3]&~func[2] & func[1]& — func[0]; 

wire i—sra = r—type&~func[5func 【 4]& - func[3 】 &'func[2] & func[1)S func[0]; 

wire i 一 jr = r—type& ~ func[ 5 】 &'func[4] & func[3]& ~ func[2]&~func[1]&'func[0]; 

wire i 一 addi = "optS] &"op[4] & op[3 】 & - op[2] &~op[l] & - op[0 】； 

wire i_andi = 'op[5] &'op[4] & op 【 3] & op[2] &^op[l] & ~op[0]; 

wire i—ori = ^op[5] &'op 【 4】& op[3] & op[2] &'op[1] & op[0J; 

wire i_xori = 'op[5] &'op(4] & op[3] & op[2] & op[1] &~op[0 】； 

wire i_lw = op[5] &’op[4] &’op[3] &_op[2] & op[1] & op[0]; 

wire i—sw = op[5] &'op[4] & op[3] &~op[2】 & op[1] & op 【 0 】； 

wire i 一 beq = 'op[5] & ~op[4] &”op[3】& op[2] &'op[1] &~op[0 】； 

wire i—bne = ~op[5] &~op[4 】 &~op 【 3】& op[2 】 & - op 【 l] & op[0]; 

wire i 一 lui = ’op[5] &~op[4] & op 【 3] & op[2] & op[1] & op[0]; 

wire i 一 j = ‘op[5] & ~op[4] & ~op[3] &^op[2] & op[1] &'op[0]; 

wire i_jal = ""op [5] & *op [4 ] ^ ~op [3] &"op[2] & op [ 1 ] & op [0]; 

assign wreg = i 一 add | i—sub | i—and| i—or | i 一 xor| i 一 sill i_srl| i_sra| 

i 一 addiI i—andi| i 一 ori| i 一 xori| i—lw| i 一 luiI i 一 jalI i_mfc0; 
assign regrt = i_addiI i_andi| i_ori| i_xori| i_lw | i_lui| i 一 mfcO; 
assign jal = i 一 jal; 

assign m2reg = i 」 w; 

assign shift = i 一 sll I i 一 srl I i_sra; 

assign aluimm = i_addi | i_andi I i 一 ori | i_xori | i」w | i_lui I i_sw; 

assign sext = i_addi I i」w | i_sw | i_beq | i 一 bne; 

assign aluc[3] = i 一 sra; 

assign aluc[2] = i 一 sub| i_or| i 一 srl| i_sra| i_ori| i_lui; 

assign aluc 【 l 】 =i_xor| i 一 sllI i 一 srl| i 一 sra| i 一 xori| i 一 beql i 一 bne| i_lui; 
assign aluc[0] = i 一 and| i_or| i 一 sill i_srl| i—sra| i_andi| i 一 ori; 
assign wmem = i—sw; 
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assign pcsource 【 l] = i_jr| ， i_j| 

assign pcsource[0] = i 一 beq & z| i 一 bne & ^ z| i—jI i 一 jal; 
endmodule 


带有溢出标志 v 的 ALU 。 v 的产生方法 很笨: 


module alu—ov (a,b,aluc, r, z, v}; 
input [31:0] a,b; 
input [3:0] aluc; 
output [31:0] r; 


// aluc[3:0] 

// 

// x 0 0 0 ADD 


output z,V; 








// 

X 

1 

0 

0 

SUB 

wire 

[31:0 】 

d. 

.and 

= 3 & 

b; 




// 

X 

0 

0 

1 

AND 

wire 

[31:0] 

d_ 

_or 

=a | 

b; 




// 

X 

1 

0 

1 

OR 

wire 

[31:0] 

d_ 

_xor 

=a " 

b; 




// 

X 

0 

1 

0 

XOR 

wire 

[31:0] 


_lui 

={b[15:0] # 16 # 

h0} 

• 

9 


// 

X 

1 

1 

0 

LUI 

wire 

[31:0] 

d. 

and 

• 

一 or = 

aluc[2]? 

cL 

or 

: d_and; 

// 

0 

0 

1 

1 

SLL 

wire 

[31:0] 

d_ 

xor 

mm ■ 

一 lui = 

aluc[2]? 

cL 

lui 

: d—xor; 

// 

0 

1 

1 

1 

SRL 

wire 

[31:0] 

d_ 

_as, d 一 sh; 





II 

1 

1 

1 

1 

SRA 


addsub32 as32 (a,b,aluc[2],d 一 as); 

shift shifter (b,a[4:0 】， aluc 【 2 】， aluc[3],d 一 sh); 

mux4x32 select (d 一 as,d—and 一 or,d—xor—lui, d 一 sh,aluc[1:0] , r); 


assign z = "|r; 

assign v = ~aluc 【 2】& 'a [31] & ~b[31] 

•aluc[2] & a[31] & b[31] 

aluc[2] & _a[31】& b[31] 

aluc 【 2] & a[31] & *b[31] 

endmodule 


& r[31] 
& "r[31] 
& r[31] 
& [31] 


& 〜 aluc[l 】 
& •aluc[l] 
& "aluc(1] 
& •aluc(l] 


& 'aluc[0] I 
& ^aluc[0] I 
& *"aluc[0】I 
& ~aluc[0]; 


指令存储器，测试程序在 sci 」 ntr . mif 中: 


module sci_intr (a,inst); 

input [31:0] a; 
output [31:0] inst; 

lpm 一 rom lpm_rom—component (.address(a[7:2 ]), . q(inst)); 
defparam 1pm 一 rom 一 component•lpm 一 width = 32, 

lpm 一 rom 一 component•1pm 一 widthad = 6, 

lpm—rom 一 component•1pm 一 numwords = "unused ”， 

lpm 一 rom 一 component•1pm 一 file = ” sci—intr.mif", 

lpm 一 rom 一 component•lpm 一 indata = ” unused ”， 

lpm 一 rom — component•lpm 一 outdata = "unregistered", 

lpm 一 rom 一 component•lpm 一 address_control = ’ .unregistered ”； 

endmodule 

数据存储器，测试数据在 scd_intr.mif 中： 

module scd 一 intr (elk, dataout, datain, addr, we, inclk, outclk); 

input [31:0] datain; 
input [31:0] addr; 

input elk, we, inclk, outclk; 
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% reset : % 
0800001d; % (00) j start # entry on reset % 
00000000; % (04) nop # % 


异常或中断处理程序 人口： 0x00000008 。 查表并跳转。跳转表在数据存储器中。 

% EXC_BASE : # exception handler % 
2: 401a6800; % (08) mfc0 r26, CO—CAUSE # read cpO Cause reg % 
3 : 335b000c; % (0c) andi r27, r26 f Oxc # get ExcCode, 2 bits here % 
4 : 8f7b0020; % (10) lw r27 f j 一 table(r27)# get address from table % 
5 : 00000000; % (14) nop # % 
6 : 03600008; % (18) jr r27 # jump to that address % 
7 : 00000000; % (lc) nop # % 


output [31:0] dataout; 

wire write 一 enable = we & ~clk; 

lpm 一 ram 一 dq ram (•data(datain) , •address(addr[6:2]), 

•we 《 write_enable),•inclock(inclk ) 9 
•outclock(outclk),.q(dataout)); 
defparam ram.lpm 一 width = 32; 

defparam ram.lpm_widthad = 5; 

defparam ram.lpm 一 indata = "registered ”； 

defparam ram.lpm—outdata = "registered"; 

defparam ram.lpm 一 file = "scd—intr•mif ”； 

defparam ram.lpm 一 address—control = "registered"; 

endmodule 

6.3 CPU 的异常与中断测试 

6.3.1 测试程序和测试数据 

以下给出测试程序和测试数据。注意在测试程序中，我们主要是演示异常或中 
断处理程序的进入和返回，而没有对异常或中断本身进行任何处理。 

1. 指令存储器的内容 sciJntr.mif 

DEPTH = 64; % Memory depth and width are required % 

WIDTH = 32; % Enter a decimal number % 

ADDRESS 一 RADIX = HEX; % Address and value radixes are optional % 

DATA_RADIX = HEX; % Enter BIN, DEC, HEX, or OCT; unless % 

% otherwise specified, radixes = HEX % 

CONTENT 

BEGIN 

： 00000000; % Range 一一 Every address from 0 to 3F = 00000000 % 

系统复位 ( Reset ) 时的 入口： 0 x 00000000。 


• • •• 
o 1 
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外部中断处理程序入口： 0 x 00000030。什么也没干就返回了。 


% 

c: 00000000; % 
d: 42000018; % 
e: 00000000; % 


int—entry : 
(30) nop 
(34) eret 
(38) nop 


# 0. interrupt handler % 

# deal with interrupt here % 

# return from interrupt % 

# % 


系统调用指令的入口： 0 x 0000003 c 。 EPC 加4后就返回了。 




% 


f: 

00000000; 

% 

(3c) 



% 


10: 

401a7000; 

% 

(40) 

11: 

235a0004; 

% 

(44) 

12: 

409a7000; 

% 

(48) 

13: 

42000018; 

% 

(4c) 

14: 

00000000; 

% 

(50) 


sys_entry : 
nop 

epc_plus4 : 


mf cO 

r26, 

CO—EPC 

addi 

r26, 

r26 f 4 

mtcO 

r26 f 

CO 一 EPC 

eret 



nop 




# 1 • SysCall handler % 

# do something here % 

# % 

# get EPC % 

# EPC + 4 % 

# EPC < —— EPC +4 % 

# return from exception % 

# % 


未实现的指令的 入口： 0 x 00000054。 EPC 加 4 后就返回了。 


% 

15: 00000000; % 
16: 08000010; % 
17: 00000000; % 


uni 一 entry : 

(54) nop 

(58) j epc_plus4 

(5c) nop 


# 2. Unimpl• inst. handler 

# do something here 

# return 

# 


% k 

% 

% 

% 


溢出处理程序的 人口： 0 x 00000068。 EPC 加 4 后就返冋了。 


% ovf 一 entry: 


la: 00000000; 

% 

(68) 

nop 



lb: 08000010; 

% 

(6c) 

• 

j 

epc_plus4 

lc: 00000000; 

% 

(70) 

nop 



开 中断： 

% 


start : 



Id: 2008000f; 

% 

(74) 

addi 

r8. 

rO, Oxf 

le: 40886000; 

% 

(78) 

mtcO 

r8. 

C0_STATUS 

测试 溢出： 






If: 8c080048; 

% 

(7c) 

lw 

r8. 

0x48(rO) 

20: 8c09004c; 

% 

(80) 

lw 

r9 f 

0x4c (rO) 


% 


Ov: 



21: 01094020; 

% 

(84) 

add 

r9. 

r9, r8 

22: 00000000; 

% 

(88) 

nop 



测试系统 调用： 

% 


Sys: 



23: 0000000c; 

% 

(8c) 

syscall 


24: 00000000; 

% 

(90) 

nop 




# 3 . Overflow handler % 

# do something here % 

# return % 

# % 

# % 

# IM[3:0] <-- 1111 % 

# exc/intr enable % 


# try overflow exception % 


# caused by add % 

# % 

# overflow % 

# % 

# % 

# % 

# % 



6.3 CPU 的异常与中断测试 


175 


测试未实现的指令： 

% Unimpl : 

25: 0128001a; % (94) div r9, r8 
26: 00000000; % (98) nop 


# % 

# div, but not implemented % 

# % 


测试外部 中断： 在此期间由外部送来中断信号 intr 。 


% Int : 


% 


27: 34040050; % (9c) 
28: 20050004; % (a0) 
29: 00004020; % (a4) 

% 

2a: 8c890000; % (a8) 
2b: 20840004; % (ac) 
2c: 01094020; % (bO) 
2d: 20a5ffff; % (b4) 


ori r4, rl, 0x50 
addi r5 f rO, 4 
add r8, rO, rO 
loop: 

lw r9, 0(r4) 
addi r4, r4, 4 

add r8, r8, r9 
addi r5, r5, -1 


# address of data[0] 

# counter 

# sum <-- 0 

# 

# load data 

# address + 4 

# sum 

# counter - 1 


% 

% 

% 

% 

% 

% 

% 

% 


2e : 14a0fffb; % (b8) bne r5 f rO, loop # finish? 

2f : 00000000; % (be) nop # 

% finish: # 


% 

% 

% 


30: 08000030; % (cO) j finish 禅 dead loop % 

END ; 


2. 数据存储器的内容 scdJntr.mif 

DEPTH = 32; % Memory depth and width are required % 

WIDTH = 32; % Enter a decimal number % 

ADDRESS 一 RADIX = HEX; % Address and value radixes are optional % 

DATA_RADIX = HEX; % Enter BIN, DEC, HEX, or OCT; unless % 

% otherwise specified, radixes = HEX % 

CONTENT 

BEGIN 


[0..IF] : 00000000; % Range -一 Every address from 0 to IF = 00000000 % 

跳 转表： 

% address table for internal exception and external interrupt % 


8 : 00000030; 

% 

(20) 

int_ 

_entry # 

0. 

address for 

interrupt 

% 

9 : 0000003c; 

% 

(24) 

sys- 

一 entry # 

1. 

address for 

Syscall 

% 

a : 00000054; 

% 

(28) 

uni. 

一 entry # 

2. 

address for 

Unimpl. inst. 

% 

b : 00000068; 

% 

(2c) 

ovf_ 

一 entry # 

3. 

address for 

Overflow 

% 

为测试溢出而准备的 数据： 








12 

00000002; 

% 

(48) 

for 

testing 

overflow 


% 

13 

7fffffff; 

% 

(4c) 

2 + 

max. 

■int 

— 

> overflow 


% 

14 

000000A3; 

% 

(50) 

data [0] 

0 

+ 

A3 = A3 


% 

15 

00000027; 

% 

(54) 

data[1] 

A3 

+ 

27 = CA 


% 

16 

00000079; 

% 

(58) 

data [2] 

CA 

+ 

79 = 143 


% 

17 

00000115; 

% 

(5C) 

data [3] 

143 

+ 

115 = 258 


% 


END ; 
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6.3.2 CPU 异常及中断处理测试结果及说明 

图 6.12 〜图 6.19 给出了带有异常和中断处理功能的 CPU 在执行上述测试程 
序时产生的波形。从图 6.12 看出，复位时 CPU 从 0 x 00000000 地址开始执行。因 
为 0 x 00000000 地址的指令是 j 指令，跳转到 0 x 00000074 去执行。开中断后，在 
PC = 0 x 00000084 处的 add 指令产生溢出，从而进入异常或中断处理程序的总人口 
0 x 00000008。即，图 6.12 是执行以下7条指令的波形。 



图 6.12 单周期 CPU 异常或中断仿真波形图 （1) 


0: 0800001d; % (00) reset : j start % 

Id: 2008000f; % (74) start : addi r8, rO, Oxf % 

le: 40886000; % (78) mtcO r8, CO 一 STATUS % 

If: 8c080048; % (7c) lw rS f 0x48 (rO) % 

20: 8c09004c; % (80) lw r9 f 0x4c (rO) % 

21: 01094020; % (84) Ov: add r9, r9, r8 % 

2: 401a6800; % (08) EXC 一 BASE: mfcO r26, CO 一 CAUSE % 


图 6.13 是图 6.12 的继续。主要工作是检査异常类型并转人相应的处理程序的 
入 口处。 由于本次的异常是溢出，因此转入 0 c 00000068。 然后从 0 x 0000006 c 转去做 
EPC 加4。图 6.13 是执行以下7条指令的波形。 


3: 

335b000c; 

% 

(Oc) 


andi 

r27. 

r2S, Oxc 

% 

4: 

8f7b0020; 

% 

(10) 


lw 

r21 f 

table(r27) 

% 

5: 

00000000; 

% 

(14) 


nop 



% 

6: 

03600008; 

% 

(18) 


jr 

r27 


% 

la : 

00000000; 

% 

(68) 

ovf 一 entry: 

nop 



% 

lb: 

08000010; 

% 

(6c) 


• 

D 

epc_ 

•plus4 

% 

10: 

401a7000; 

% 

(40) 

epc_plus4: 

mfcO 

r26, 

C0_EPC 

% 
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图 6.13 单周期 CPU 异常或中断仿真波形图 （ 2) 



图 6.14 单周期 CPU 异常或中断仿真波形图 （ 3) 

图 6.14 的指令完成 EPC 加4,然后返回。返回后执行系统调用 syscall 指令，又 
进人异常或中断处理程序的总入口处。图 6.14 是执行以下7条指令的波形。 


11 

235a0004 ; 

% 

(44) 

• 

addi 

r26, 

r26 f 4 

% 

12 

409a7000; 

% 

(48) 


mtcO 

r26 f 

CO 一 EPC 

% 

13 

42000018; 

% 

(4c) 


eret 



% 

22 

00000000; 

% 

(88) 


nop 



% 

23 

0000000c; 

% 

(8c) 

Sys : 

syscall 


% 

2 

401a6800; 

% 

(08) 

EXC 一 BASE: 

mf cO 

r26 f 

CO 一 CAUSE 

% 
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3: 335b000c; % (Oc) andi r27, r26 f Oxc % 

图 6.15 演示进人系统调用异常的处理程序。它是执行以下7条指令的波形。 


4: 

8f7b0020; 

% 

(10) 


lw 

r21 r 

j_table(r27) 

% 

5: 

00000000; 

% 

(14) 


nop 



% 

6: 

03600008; 

% 

(18) 



r27 


% 

f : 

00000000; 

% 

(3c) 

sys 一 entry: 

nop 



% 

10: 

401a7000; 

% 

(40) 

epc_plus4: 

mf cO 

r26. 

CO 一 EPC 

% 

11: 

235a0004; 

% 

(44) 


addi 

r26. 

r26, 4 

% 

12: 

409a7000; 

% 

(48) 


mtcO 

r26. 

CO 一 EPC 

% 



图 6.15 单周期 CPU 异常或中断仿真波形图 （ 4) 

图 6.16 演示的是执行 divr 9， r 8。 这是一条合法的 MIPS 的整数除法指令，但我 
们的 CPU 硬件没有实现它，因此产生未实现的指令异常。也是进人异常或中断处理 
程序的总入口。图 6.16 示出执行以下7条指令的波形。 


13: 

42000018; 

% 

(4c) 


eret 



% 

24: 

00000000; 

% 

(90) 


nop 



% 

25: 

0128001a; 

% 

(94) 

Unimpl : 

div 

r9,. 

r8 

% 

2: 

401a6800; 

% 

(08) 

EXC 一 BASE : 

mf cO 

r26. 

CO 一 CAUSE 

% 

3: 

335b000c; 

% 

(0c) 


andi 

r27. 

r26, Oxc 

% 

4: 

8f7b0020; 

% 

(10) 


lw 

r27. 

j 一 table(r27) 

% 

5: 

00000000; 

% 

(14) 


nop 



% 


图 6.17 演示进入未实现的指令异常的处理程序， 执 行以下 7 条指令。 

6: 

03600008; 

% 

(18) 


jr 

r27 


% 

15: 

00000000; 

% 

(54) 

uni—entry : 

nop 



% 

16: 

08000010; 

% 

(58) 


• 

D 

epc_plus4 

% 
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阁 6.16 单周期 CPU 异常或中断仿真波形图 （ 5) 



图 6.17 单周期 CPU 异常或中断仿真波形图 （ 6) 


10: 

401a7000; 

% 

(40) epc_plus4 : 

mf cO 

r26 f 

CO 一 EPC 

% 

11: 

235a0004; 

% 

(44) 

addi 

r26 f 

r26 f 4 

% 

12: 

409a7000; 

% 

(48) 

mtcO 

r26 f 

CO 一 EPC 

% 

13: 

42000018; 

% 

(4c) 

eret 



% 


三种异常都演示过了。图 6.18 演示的是最后 一种： 外部中断。外部中断是异步 
的，你不知道它什么时候来。在我们的仿真中，通过硬性置 intr 信号为1来产生外部 
中断。从图中可以看出，中断出现在 CPU 正在执行 PC = OxOOOOOOAC 处的指令的 
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W6.18 单周期 CPU 异常或中断仿真波形图 （ 7) 



图 6.19 单周期 CPU 异常或中断仿真波形图 （ 8) 

时候。 CPU 执行完该指令后，转去 0x00000008 。 它是执行以下 7 条指令的波形。 

26: 00000000; % (98) nop % 

27: 34040050; % (9c) Int : ori r4 , rl, 0x50 % 

28: 20050004; % (aO) addi r5 # rO, 4 % 

29: 00004020; % (a4) add r8, rO, rO % 

2a : 8c890000; % (a8) loop: lw r9, 0 (r4) % 

2b: 20840004; % (ac) addi r4, r4, 4 % 

2: 401a6800; % (08) EXC^BASE : mfcO r26, C0_CAUSE % 



6.4 习题 
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图 6.19 演示从中断处理程序返回到 PC = OxOOOOOOBO , 执行以下7条指令。 


3: 335b000c; % (Oc) andi r27, r26 f Oxc % 

4: 8f7b0020; % (10) lw r27 f j_table(r27) % 

5: 00000000; % (14) nop % 

6: 03600008; % (18) jr r27 % 

c: 00000000; % (30) int 一 entry: nop % 

d: 42000018; % (34) eret % 

2c: 01094020; % (bO) add r8, r8 # r9 % 

程序还没有结束，但我们的直播就到此为止。 


6.4 习题 

1.用 Verilog HDL 设计图 6.7 的中断控制器电路。 

2•用 Verilog HDL 设计图 6.8 的 Daisy-Chain 电路。 

3. 在图 6.11 的基础上设计带有多个中断请求信号的 CPU 。 

4. 利用对未实现的指令异常的处理，我们可以用软件的方法实现那些硬件不支持 
的指令。如果在未实现的指令的异常处理程序中能够通过 EPC 来读取引起异常 
的指令，我们便可以用现有的指令来仿真。读取引起异常的指令的方法如下。 


uni—entry: # 



mf c0 

r26. 

CO 一 EPC 

# 


lw 

r26. 

0 (r26) 

# 

emulator : 

• • • 



# 

finish : 

mf c0 

r26 f 

CO 一 EPC 

# 


addi 

r26 f 

r26 f 4 

# 


mtcO 

r26 f 

CO 一 EPC 

# 


eret 



# 


Unimpl. inst• exception handler 
get EPC 

get the unimpl. instruction 
implement it here 
get EPC 
EPC + 4 

EPC < — EPC + 4 
return from exception 


但遗憾的是本章的 CPU 连接了两个分开的存储器 模块： 数据存储器和指令存 
储器。用 lw 指令不能从指令存储器中取数据。想想有没有什么招数实现对硬 
件不支持的指令的软件仿真。 

5. 试书写测试程序来实现中断嵌套（注意要保存 EPC )。 
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我们已经在第5章讲述了单周期 CPU 的设计方法。单周期 CPU 用一个时钟周期 
执行一条指令。而确定时钟周期的时间长度时要考虑执行时间最长的指令，以此定 
出 CPU 的时钟频率。我们知道，一旦时钟频率确定之后，一个周期的时间长度也就 
固定了。因此不管每条指令的复杂程度如何，单周期 CPU 都花费相同的时间去执行 
每条指令，这就造成了时间上的浪费，因为简单的指令根本不需要那么长的时间。 

本章讨论多周期 CPU 的设计方法并给岀 Verilog HDL 代码。多周期 CPU 的中心 
思想是把一条指令的执行分成若干个小周期，根据每条指令的复杂程度，使用不同 
数童的小周期去执行。许多个小周期加在一起相当于单周期 CPU 中的一个周期。在 
不会引起与单周期混淆的情况下，我们简称小周期为周期。 

7.1 把一条指令的执行分成若干个周期 

在我们实现的20条指令中，最复杂的指令就是 lwrt , offset ^) 了。它需要5个 
周期，其整个执行过 程为： 

1) 根据 PC 取指令，并把 PC 加4; 

2) 对指令译码并读出 rs 寄存器的 内容； 

3) 计算存储器 地址： 由 rs 寄存器的内容与指令中的偏移量 offset 相加 得到； 

4) 使用计算好的地址访问存储器，从中读出一个32位的 数据； 

5) 最后把该数据写入寄存器堆中的 rt 寄存器。 

而最简单的指令非 j address 莫属了，两个周期 就行： 

1) 根据 PC 取指令，并把 PC 加4; 

2) 指令中的 address 左移两位与 PC (加过4 了）的高4位拼接起来，写入 PC 。 

ALU 计算类型的指令需要4个 周期： 

1) 根据 PC 取指令，并把 PC 加4; 

2) 读岀 rs 和 rt 两个寄存器的 内容； 

3) 由 ALU 完成对两个寄存器数据(或一个立即数）的 计算； 

4) 最后把计算结果写入寄存器堆中的 rd (或 rt ) 寄存器。 

转移类型的指令，例如 beq rs , rt ， offset ，需要 3 个周期： 

1) 根据 PC 取指令，并把 PC 加4; 

2) 读出 rs 和 rt 两个寄存器的数据并锁存，同时 ALU 计算转移地址并 锁存； 

3) 由 ALU 比较两个寄存器数据，并决定是否把转移地址写人 PC 。 

多周期 CPU 与单周期 CPU 的时序比较见图7.1。表 7.1 列出了每条指令所用的 
周期数。注意，多周期 CPU 也忽略了 MIPS 转移类指令的延迟转移特性，我们将在 
流水线 CPU 中实现延迟转移。以下我们讨论在每个周期执行指令时所需的电路。 



7.1 把一条指令的执行分成若干个周期 
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单周期 




多周期 ( lw \ add x M 

4 I 3 


阁 7.1 多周期 CPU 与单周期 CPU 的时序比较 

表 7.1 每条指令所用的周期数 


指令 1 

意义 

周期数 

add rd, rs, rt 

寄存器加 ! 

4 

sub rd, rs, rt 

寄存器减 

4 

and rd, rs, rt 

寄存器与 

4 

or rd, rs, rt 

寄存器或 

4 

xor rd, rs, rt 

寄存器异或 

4 

sll rd, rt, sa 

左移 

4 

srl rd, rt, sa 

逻辑右移 

4 

sra rd, rt, sa 

算术右移 

4 

jr rs 

寄存器跳转 

2 

addi rt, rs, immediate 

立即数加 

4 

andi rt, rs, immediate 

立即数与 

4 

ori rt, rs, immediate 

立即数或 

4 

xori rt, rs, immediate 

立即数异或 

4 

lw rt, offset(rs) 

取字 

5 

sw rt, offset(rs) 

存字 

4 

beq rs, rt, offset 

相等转移 

3 

bne rs, rt, offset 

不等转移 

3 

lui rt, immediate 

设置高位 

4 

j address 

跳转 

2 

jal address 

调用 

2 





7.1.1 取指令周期 IF 


取指令周期 IF (Instruction Fetch) 做两件事情：取指令和 PC + 4。电路见图 7.2 。 

IR <—— Memory[PC] ; 

PC <— PC + 4; 

多周期 CPU 设计的基本原则是在每个周期结束时把本周期的结果保存在某个地 
方以便下一个周期使用。例如在图 7.2 的电路中我们设置了一个带有写使能端的指令 
寄存器 IR (Instruction Register )。 这样，即使 PC 的值改变了，只要 IR 的写使能端 wir 
(Write IR) 无效， IR 中的指令就不会改变。 
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__ _ 

I 


pc source 


aluc 





图 7.2 取指令周期 IF 

由于该周期 ALU 无事可做，我们可以把 PC + 4的工作分派给它，这样就没必 
要再使用一个专门的加法器了。由于不是每个周期 PC 都加4,所以也给 PC 加了一 
个写使能 wpc (Write PC )。 我们还专门在 ALU 前面加了两个多路器，它们的选择信 
号分别为 selpc (Select PC ) 和 alusrcb (ALU Source B )。 该周期的控制信号的输岀应该 
为 ： wir = 1 ( 写 IR ), wpc = 1 ( 写 PC ), selpc = 1 (选择 PC ), alusrcb = 1 (选择 4)， 
aluc = xOOO (ALU 做加法 )， pcsource = 0 (选择 PC + 4)。 

7.1.2 指令译码周期 ID 

除了 j 、 jal 和 jr 三条指令之外，其他指令在指令译码 (Instruction Decode) 周期做 
以下三件 事情： 

A <—— RegisterFile[rs] ; 

B < —— RegisterFile[rt]; 

C < — PC + sign—extend(offset} << 2; 

即根据寄存器号 rs 和 rt 从寄存器堆读出两个 32 位数据，将它们分别存放在寄存器 A 
和 B 中。与此同时， ALU 计算转移地址，即把 PC (在 IF 周期已经加过4 了）与指令 
中的偏移 M 左移两位相加。偏移 M 要进行符号扩展。计算出的转移地址写人寄存器 
C 。 这项工作完全是为了转移指令 ( beq 和 bne ) 而做的，其他指令并不需要它。这部 
分的电路如图 7.3 所示。 

控制信号的输出应 该为 ： wir = 0( 不写 IR ), wpc = 0( 不写 PC ), selpc =1( 选择 
PC ), alusrcb = 3 (选择左移两位后的 offset ) , sext = 1 (符号扩展 )， aluc = xOOO (ALU 
做加法 )， pcsource = x ( 任意，因为不写 PC )。 注意寄存器 A 、 B 和 C 没有写使能 
端，这意味着每个时钟周期都无条件地把数据写入其中。 

指令 j 、 jal 和 jr 在本周期将完成最后的操作，即无条件跳转。 jr 指令从 rs 寄存 
器中得到转移 地址； j 和 jal 指令得到转移地址的方法是把 PC 的高4位与指令中的 
address 左移两位拼接。另外， jal 指令还要把 PC 的值写入31号寄存器 r 31。 

j : PC <—— {PC[ 31:28 ] , address, 00 } ; 







wrcg 



alusrcb 


aluc 


pc source 


三条指令都是无条件转移，所以 wpc = 1。当指令为 jr 时 ， pcsource = 2 ( 选择 rs 寄 
存器的内容)；当指令为 j 或 jal 时 ， pcsource = 3;如果是 jal 指令 ， jal = 1 (生成目 
的寄存器号31、选择 PC 送往寄存器堆的 d 端)， wreg = 1( 保存返回地址)。 


alusrcb 


aluc 


pcsource 


把一条指令的执行分成若干个周期 
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rs 





imm 


Regfile 


iiua 


图 7.3 指令译码周期 ID (不包括 j 、 jal 和 jr 指令) 


jal : RegisterFile[31] <—— PC 


]r: 


PC < -- {PC [31 : 28],address,00} 
PC < —— RegisterFile[rs]; 


实现这三条指令的电路如图 7.4 所示。我们把图 7.3 的电路也加进去了。由于这 


7.1.3 指令执行周期 EXE 

三 条指令 j、jal 和 jr 在 ID 周期已经完成了它们的使命，而其他指令则进入执行 
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图 7.5 转移指令和寄存器类型的算术和逻辑运算指令的执行周期 EXE 

寄存器类型的算术和逻辑运算指令 （ add 、 sub 、 and 、 oi •和 xor ) 所需电路与转移 
指令相同（见图7.5)，只是控制信号不同。这些指令完成如下的 操作： 

add/sub/and/or/xor : C <—— A op B; 

立即数类型的指令 （ addi 、 andi 、 ori 、 xori 、 lw 、 sw 和 lui ) 所需电路如图 7.6 所 
示，扩展后的立即数连接到了 ALU 左边的四选一多路器的输人端。这些指令完成如 
下的 操作： 

addi : C <—— A + sign 一 extend(immediate) ; 

andi/ori/xori : C <—— A op zero 一 extend(immediate); 
lw/sw: C < —— A + sign_extend(offset); 

lui : C < —— immediate << 16; 


Regfile 


imm 


wreg 


alusrcb 


aluc 


pcsourcc 


(Execution) 周期。这个周期要分很多种情况加以讨论，因为不同类型的指令在执行 
时有不同的电路要求。首先看条件转移指令 beq 和 bne 的执行 情况： 

beq: if (A == B) PC <— C; 
bne : if (A != B) PC < 一- C; 

其中的 （A == B ) 和 （A != B ) 是判断 A 、 B 两个寄存器的内容是否相等。注意寄 
存器 C 的内容，它是 ID 周期计算出的转移地址。这两条指令在本周期结束操作。 
图 7.5 新加的部分是执行这两条指令所需的电路，即判断是否相等由 ALU 完成。判 
断结果由 z 送出，控制部件使用它来产生 wpc 信号： 如果条件满足，修改 PC ， 即 
wpc = beq z -|- bne z D 这时的 pcsource = 1 (选择寄存器 C 的内容)。条件转移指令 

在本周期结束。 




!•! 








K#B 


kid 




aa^Jis 






把一条指令的执行分成若干个周期 
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图 7.6 立即数类型指令的执行周期 EXE 

由于 immediate 和 offset 都是指令中的16位立即数，我们在图中用 imm 表示。 
执行这些指令时，控制信号 alusrcb = 2 (选择立即数)。 

移位指令 （ sll 、 srl 和 sra ) 所需电路如图 7.7 所示。我们又用了一个二选一多路 
器，选择信号为 shift , 为1时选择指令中的 sa 。 这些指令完成如下的 操作： 

sll : C <—— B << sa; 
srl : C <—— B >> sa; 
sra : C <—— signed(B) >>> sa; 



7.7 移位类型指令的执行周期 EXE 
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注意，指令中的 sa 只有5位，送往二选一多路器时要扩展成32位。 ALU 做移 
位操作时只使用 a 输人端的最低5位，因此扩展时的高27位可以设置成任意值。另 
外， （： <--341^(8)>>>53 意味着把 8 算术右移 83 位， 在 Verilog HDL 中，可以使 
用 Ssigned(B) »> sa 语句。 

本周期结束时， lw 和 sw 指令将进入存储器访问周期 MEM; 其他指令将进入结 
果写回周期 WB 。 

7.1.4 存储器访问周期 MEM 


只有 lw 和 sw 指令进人存储器访问周期 MEM (Memory Access )。 在 EXE 周期， 
我们已经计算出了存储器地址，存放在寄存器 C 中。 lw 指令从存储器中取 数据； sw 
指令往存储器中存 数据： 

lw: DR <—— Memory[C] ; 

sw: Memory[C] < —— B; 

这两条指令在存储器访问周期所需的硬件电路如图 7.8 所示。我们可以像单周期 
计算机那样，设置单独的数据存储器。但我们这里把指令存储器和数据存储器合二 
为一，只用一个存储器模块。因为取指令时使用 PC 作为存储器地址，而读取存储器 
数据时使用 ALU 计算出的地址，所以我们在存储器的地址输入端使用了一个二选一 
多路器。二选一多路器的选择信号为 iordo 执行 lw 或 sw 指令时， iord = 1 ， 选择寄 
存器 C 中的地址。我们还使用了一个新的寄 存器： DR (Data Register )。 从存储器取出 
的数据存放在 DR 中。 



图 7.8 存储器访问周期 MEM 
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执行 sw 指令时，把寄存器 B 中的内容写人存储器。由于寄存器 B 没有写使 
能端，即每个周期都更新寄存器 B ， 所以我们要保证在 EXE 周期向寄存器 B 中 
写入的是我们所希望的数据 ，即： B — RegisterFileM 。 因为在 ID 周期结束时我 
们并没有向 IR 寄存器写入新的指令，所以在 EXE 周期向寄存器 B 写人的仍然是 
RegisterFile[rt]。sw 指令在本周期结束， lw 指令将进入 WB 周期。注意图 7.8 包含了 
除 WB 之外的所有电路。 

7.1.5 结果写回周期 WB 

结果写回周期 WB (Write Back) 把 ALU 的计算结果或者从存储器取来的数据写 
入寄存器堆 o 目的寄存器号有 rd 和 rt 之分： 


add/sub/and/or/xor/sl1/srl/sra : RegisterFile[rd] <-- C; 
addi/andi/ori/xori/lui : RegisterFile[rt] < — C; 

lw: RegisterFile[rt] < —— DR; 

结果写回周期 WB 的电路图见图 7.9 。 控制信号 m2reg 选择 DR 或 C; regrt 选择 
rd 或 rt; jal = 0; wreg = 1 0 



图 7.9 结果写回周期 WB ( 忽略了其他部分的电路 ) 

7.2 多周期 CPU 的总体电路及 Verilog HDL 代码 

7.2-1 多周期 CPU 的总体电路 


综合 7.1 节的描述，我们得到如阁 7.10 所示的多周期 CPU 加上存储器的总体电 
路图。除了控制部件，其他所有的部件都已经在设计单周期 CPU 时描述过了。 

7.2.2 多周期 CPU 的 Verilog HDL 代码 


以下的模块 mccomp 是多周期 CPU 加上存储器的 Verilog HDL 代码。它调用多 
周期 CPU 模块 mccpu 和存储器模块 mcmem 。 我们将在“存储器及测试程序设计” 一 
节介绍存储器 mcmem 模块。 
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阁 7.10 多周期 CPU +存储器的总体电路图 


module mecomp (clock, resetn, q, a, b, alu, adr, tom, fromm,pc,ir,mem—elk}; 

input clock,resetn,mem 一 elk; 


output [31:0] a,b,alu,adr,tom,fromm,pc,ir; 
output [2:0] q; 
wire wmem; 


mccpu mc_cpu (clock,resetn,fromm,pc,ir,a,b,alu,wmem f adr,tom,q 〉； 
mcmem memory (clock,fromm,tom,adr,wmem,mem 一 elk,mem 一 elk); 
endmodule 


以下的模块 mccpu 是结构描述风格的多周期 CPU 的 Verilog HDL 代码，它调用 
的控制部件 mccu 模块在下一节给出。其他被调用的模块应该已经全部介绍过了。 


module mccpu (clock, re set n, f rommem, pc, inst, alua,alub,alu, wmem, madr / tomem. 


state); 

input [31:0] frommem; 
input clock,resetn; 

output [31:0] pc,inst,alua,alub,alu,madr,tomem; 
output [2:0] state; 


output wmem; 


wire 

wire 

wire 

wire 

wire 

wire 

mccu 


[3:0] aluc; 

[4:0] reg_dest; 

z,wpc,wir, wmem, wreg,iord,regrt,m2reg,shift,selpc,jal,sext; 
[31:0] npc,rega,regb,regc,mem,qa,qb,res,opa,bra,alub,alu_mem; 
[1:0] alusreb, pcsource; 

[31:0] sa = {27 # bO f inst[10:6]}; 

control 一 unit (inst[31:26],inst[5:0],z,clock,resetn. 
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wire 


e 


wpc, wir, wmem, wreg, iord, regrt, m2reg, aluc, 
shift,selpc, alusrcb, pcsource, jal, sext, state) 
sext & inst(15]; 


wire [15:0】imm 




{16{e}}; 


wire [31:0] immediate 


wire [31:0] offset 


imm 




{imm[13:0] # inst[15:0],1'bO,l f b0} 


dffe32 ip (npc,clock,resetn,wpc,pc); 
dffe32 ir (frommem,clock,resetn,wir,inst) 
dff32 dr (frommem,clock,resetn,mem}; 
dff32 ra (qa,clock,resetn,rega); 
dff32 rb (qb,clock,resetn,regb>; 
dff32 rc (alu,clock,resetn,regc); 


assign tomem 


regb; 


mux2x5 reg 一 wn (inst [15:11], inst[20:16],regrt,reg_dest); 


wire [4:0] wn 


reg 一 dest I {5{jal}); // jal : r31 < —— p4 


mux2x32 mem 一 address (pc,regc,iord,madr); 
mux2x32 result (regc,mem,m2reg,alu_mem); 


mux2x32 link 


(alu 一 mem,pc,jal,res); 


mux2x32 oprand—a <rega,sa,shift,opa); 
mux2x32 alu 一 a (opa,pc,selpc,alua); 


mux4x32 alu b 


immediate 


mux4x32 nextpc (alu,regc,qa,jpc,pcsource,npc>; // next pc 

regfile rf (inst[25:21],inst[20:16],res,wn, wreg, clock,resetn,qa,qb); 


wire [31:0] jpc 




{pc [31:28 】， inst [25:0] , l # b0, 1^0} 


alu alunit (alua,alub,aluc f alu,z>; 


endmodule 


7.3 用有限状态机实现多周期 CPU 的控制部件 

我们可以用典型的时序电路来实现多周期 CPU 的控制部件。重要的工作是确定 
状态转移图。状态转移图不是唯一的，只要能实现 7.1 节描述的各条指令所经过的周 
期（状态）即可。 

7.3.1 多周期 CPU 的控制部件的状态转移图 


本小节给出的只是一种可能的状态转移图，见图7.11。我们这里使用了最少的 
状态数。从图中可以看岀，三条跳转指令用两个 周期； 两条条件转移指令用三个周 
期； lw 指令用五个 周期； 其余指令均用四个周期。图中的五个状态分别有五个名 
字，而且我们为每个状态分别指定了一个唯一的3位二进制数。实际上，这3位二 
进制数是每个状态的“身份证号码’’，不允许两个不同的状态有相同的号码。 

7.3.2 多周期 CPU 的控制部件的总体结构 

图 7.12 所示的是多周期 CPU 控制部件的电路结构图。这是一个非常典型的时序 
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1 


sw 




m 7.11 多周期 cpu 控制部件的状态转移图 


电路。 D 触发器保存（指出）当前状态，其余两个模块是组合电路，分别产生表示下 
一 状态的3位二进制数和控制信号。 


D 触发器 




pcsource[l:0] 

wir 

iord 

wmem 

aluc[3:0] 

selpc 

shift 

alusrcb[l:0] 

sext 



图 7.12 多周期 CPU 控制部件的电路结构图 

7.3.3 下一状态函数 

图 7.12 中的“下一状态”模块是组合电路，用于产生下一状态的信息，我们用 
d [2:0] 表示它。 d [2:0] 在时钟的上升沿处被存入 D 触发器， D 触发器的输出 q [2:0] 是 
当前状态。根据图 7.11 所示的控制部件的状态转移图，我们有如表 7.2 所示的真值 
表。我们的目的是求出 d [2:0] 每一位的逻辑表达式。 

由真值表，我们得到如下的逻辑表达式，其中的 sif 、 sid 、 sexe 、 smem 和 swb 
表示状态，可以认为是中间变量。 


sif = q [2] q [ l ] q [0] 

sid = q [2] q [ l ] q [0] 

sexe = q [2] q [ l ] q [0] 
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表 7.2 下一状态函数的真值表 


当前状态 

输人 

下一状态 

状态 

q[2 : 0 】 

op [5 : 0] 

状态 

d[2 : 0] 

sif 

0 0 0 

X 

sid 

0 0 1 

sid 

0 0 1 

• 参 

LJ 

sif 

0 0 0 

i-jal 

sif 

0 0 0 

Ljr 

sif 

0 0 0 

others 

sexe 

0 10 

sexe 

0 10 

i.beq 

sif 

0 0 0 

i-bne 

sif 

0 0 0 

iJw 

smem 

0 11 

i-sw 

smem 

0 11 

others 

swb 

10 0 

smem 

Oil 

iJw 

swb 

10 0 

i 一 sw 

sif 

0 0 0 

swb 

10 0 

X 

sif 

0 0 0 


smem = q [2] q [ l ] q [0]; 

swb = q [2] q [ I ] q [ Oj ; 

d [0] = i_sif + i_sexe ( i」w + i _ sw ); 

d [ l ] = sid ( i_j + i-jal + i - jr ) + sexe (Llw + i _ sw ); 

d [2] = sexe ( i_beq + i_bne + iJw + i _ sw ) + smem iJw ; 

表达式中的指令译码与单周期 CPU 相同。有了逻辑表达式，我们可以画出逻辑 
图，此处就不再给出了。 

7.3.4 控制信号的产生 

控制部件中的另一部分“输出函数”也是组合电路，用来产生控制信号。表 7.3 
是控制信号的真值表。表中只列出了在 sexe 状态下执行 add 指令时各控制信号的取 
值以及控制信号 wmem 的所有取值。我 们有： 

wmem = smem i _ sw ; 

作为练习题，试把表 7.3 填满，并用逻辑图输入的方法设计多周期 CPU 。 

7.3.5 控制部件的 Verilog HDL 代码 


以下是控制部件的 Verilog HDL 代码。注意，代码中并没有使用前两小节给出 
的逻辑表达式，而是根据状态及指令直接对控制信号赋值。值得一提的是实现状态 
转移的 方法： 我们使用了中间变量 next _ S tat e ， 意为下一状态。在当前状态中，根据 
指令对 next _ state 赋值，并在每个时钟上升沿把 next _ state 打入状态寄存器。这也是用 
Verilog HDL 实现有限状态机时常用的方法。 
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module mccu (op, func, z, clock, resetn, 

wpc, wir, wmem / wreg, iord, regrt, m2reg f aluc, 
shift,alusrca, alusrcb, pcsource, jal, sext, state); 


iJui 


.on 


i—andi 


swb 


Lsw 


smem 


iJui 


•bne 


beq 


iJw 


ijcori 


•ori 


.andi 


•addi 


-sra 


■srl 


Ls 


ijcor 


.or 


.and 


Lsub 


sexe 


.add 



x 



00 


000 


others 


sid 


sif 


状态 


指令 


输出 


表 7.3 控制信号的真值表 


【 0:1 】 a>amosod 


iluM 


o:l】CPJSnlcd 


【 0:{:unlE 


































7.3 用有限状态机实现多周期 CPU 的控制部件 


195 


input [5:0] op, func; 

input z, clock, resetn; 

output reg wpc, wir, wmem, wreg, iord, regrt ， m2reg; 

output reg [3:0] aluc; 

output reg 【 1:0] alusrcb f pcsource; 

output reg shift, alusrca, jal, sext; 

output reg [2:0 】 state; 

reg [2:0] next 一 state; 

parameter [2:0] sif = 3 f bOOO, II IF state 

sid = 3'bOOl, // ID state 

sexe = 3 # b010/ // EXE state 
smem = 3'b011, // MEM state 
swb = 3 ， bl00; // WB state 

wire r 一 type,i 一 add,sub,i—and,i_or,i 一 xor,i 一 sll,i—srl,i 一 sra,i 一 jr; 
wire i—addi, i 一 andi, i_ori, i—xori, i 」 w, i—sw, i—beq, i—bne, i 一 lui, i 一 j, i_jal; 
and (retype, ~op[5], -op[4] ,^op[3], ~op[2] ,^op[l] f **op[0]); 

and (i 一 add, r—type, func [5], ^func [4], ~func [3], func [2】，~ func [1], ~func [0]) 

and(i 一 sub,r 一 type ， func [5], — func[4] f —func[3] f 'func 【 2] ， func[1],~func [0]) 

and(i—and,r—type, func [5], 〜 func[4],~func[3] f func[2] f 'func[l],'func[0]) 

and(i 一 or, r 一 type, func[5],~func[4],~func[3 】 ， func[2], 〜 func[1 】 ， func[0]) 

and(i_xor # r 一 type, func[5] / ^func[4 ], ~func[3 】 ， func[2 】 ， func[l 】 ， ^func[0]) 

and(i_sll,r_type,~func[5 】， ~func [A], ~func[3] , ~func[2], "func[1], 'func[0]) 

and (i_srl f r 一 type, 一 func [5], ~func [4 ] , ~ func [3] , ~func [2], func [ 1 ], ~func [0].) 

and(i—sra,retype,"func [5], ~func 【 4],~func[3],—func [2], func[1], func[0]) 

and<i_jr, r 一 type,"func[5],~func[4], func[3],~func[2] f ~func[1],~func[0]) 

and(i 一 addi, 一 op[5] 〆 op[4], op 【 3 】 〆 op[2],~op[1],~op[0]}; 

and(i 一 andi,‘op[5],-op[4], op[3], op[2], _op[l]，op [0] > ; 

and(i_ori, _op [5] , _op [4 ] , op[3], op[2] ， op[l], op[0]); 

and(i—xori,~op[5] 〆 op[4], op[3] f op[2], op[l],^op[0]); 

and(i_lw, op[5] f ~op[4],~op[3],~op[2], op[1] f op[0]); 

and(i—sw, op[5],"op[4], op[3],^op[2] f op[1] f op[0]); 

and(i—beq, ~op[ 5 】， ’op[4] ， ~op[3], op[2],~op[1] ， ’op[0 】 ）； 

and(i_bne, 〜 op[5 】 ， ’op[4] ， ~op[3], op[2] f ~op[l], op[0]); 

and(i—lui, ~op[5 】 ， ~op 【 4 】， op[3], op[2] f op[1], op[0]); 

and(i—j ， ~op[5] ，〜 op 【 4] ， ’op[3] ， ’op[2], op[l] f "op[0]); 

ancMi—jal ， ~op[5] ， 〜 op[4 】， ~op[3] ， ’op[2], op[1], op[0]); 

wire i_shift; 

or (i 一 shift,i — sll,i 一 srl,i 一 sra>; 


always @* begin 
wpc =0 

wir = 0 

wmem = 0 

wreg = 0 

iord = 0; 


// control signals^ default outputs : 

// do not write pc 

// do not write ir 

// do not write memory 

// do not write register file 

// select pc as memory address 
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aluc = 

= bxOOO; 

// 

ALU operation 

: add 

alusrca = 

= 0; 

// 

ALU input a : 

reg a 

alusrcb = 

= 2 # h0; 

// 

ALU input b: 

reg b 

regrt = 

= 0; 

// 

reg dest no: 

rd 

m2reg = 

= 0; 

// 

select reg c 


shift = 

= 0; 

// 

select reg a 


pcsource = 

= 2 f hO; 

// 

select alu output 

jal : 

= 0; 

// 

not a jal 


sext = 

=1; 

// 

sign extend 


case (state) 





// 


sif : begin 


// 

IF state 

wpc = 

l ； 

// 

write 

PC 

wir = 

l ； 

// 

write 

IR 

alusrca = 

l ； 

// 

PC 


alusrcb = 

2 ， hl; 

// 

4 


next 一 state 

=sid; 

// 

next 

state : ID 

end 





// - 



-- 


sid: begin 


// 

ID state 


if (i_j) begin 
pcsource = 


1； 


2 ， h3 


wpc 




next 一 state 




sif; 


// j instruction 
// jump address 
// write PC 
// next state : IF 


end else if (i_jal) begin // jal instruction 


pcsource 
wpc = 1 
jal = 1 
wreg = 1 


next_state 


2 f h3; 




sif; 


// jump address 
// write PC 
// reg no = 31 
// save PC+4 
// next state : IF 


end else if (i 一 jr) begin // jr instruction 


pcsource 


2 f h2 


wpc 


1 ; 


next—state 
end else begin 
aluc = 




sif 


alusrca 

alusrcb 






^TbxOOO 

1； 

2 f h3; 


next state 


sexe 


// jump register 

// write PC 

// next state : IF 

// other instructions 

// add 

"PC 

// branch offset 
// next state : EXE 


end 


end 


// - 

sexe : begin 

aluc[3] = i 一 sra; 


IF: 


ID: 


EXE: 


// EXE state 
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aluc[2] = i_sub | i—or | i 一 srl | i—sra I i 一 ori I i 一 lui; 

aluc[l] = i 一 xor | i 一 sll | i 一 srl | i 一 sra I i—xori | i 一 beq I 

i—bne | i 一 lui; 

aluc[0] = i—and | i_or | i 一 sll | i 一 srl | i_sra | i 一 andi | 

i—ori; 

if (i_beq || i 一 bne> begin // beq or bne instruction 
pcsource = hi; // branch address 

wpc = i 一 beq & z | i — bne & 'z; // write PC 
next 一 state = sif; • // next state: IF 

end else begin // other instruction 

if (i_lw I I i 一 sw> begin // lw or sw instruction 
alusrcb = 2 # h2; II select offset 

next 一 state = smem; // next state : MEM 
end else begin // other instruction 

if (i—shift} shift = 1; // shift instruction 
if (i 一 addi || i_andi || i—ori | | i 一 xori | | i 一 lui) 
alusrcb = 2’h2; // select immediate 
if (i 一 andi I I i_ori I | i—xori) sext=0; // 0-extend 
next 一 state = swb; // next state: WB 

end 

end 

end 


// - MEM: 

smem: begin // MEM state 

iord = 1; II memory address = C 
if (i_lw) begin 

next 一 state = swb; // next state : WB 
end else begin // store 

wmem = 1; // write memory 

next 一 state = sif; // next state: IF 

end 

end 


// - WB: 

swb: begin // WB state 

if (i_lw) m2reg = 1; // select memory data 
if (i」w || i 一 addi | I i — andi | | i—ori | | i 一 xori | I i 一 lui) 
regrt = 1; // reg dest no: rt 

wreg = 1; II write register file 

next 一 state = sif; // next state : IF 

end 

// - END 

default : begin 

next_state = sif; // default state 

end 
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endcase 

end 

always @ (posedge clock or negedge resetn) begin // state registers 
if (resetn == 0) begin 
state <= sif; 
end else begin 

state <= next 一 state; 

end 

end 

endmodule 


7.4 存储器及测试程序设计 

7-4.1 存储器设计 


module mcmem (elk, dataout, datain, addr, vie, inclk, outclk); 

input [31:0] datain; 
input [31:0] addr; 

input elk, we, inclk f outclk; 

output [31:0] dataout; 


wire 


lpm 一 ram_ 


defparam 

defparam 

defparam 

defparam 

defparam 

defparam 


endmodule 


write enable 


we & ~clk 



ram (.data(datain),•address(addr[7:2]), 

.we(write 一 enable),•inclock(inclk ), 
•outclock(outclk) f .q(dataout)); 


ram.lpm 一 width 
ram.lpm_widthad 
ram.lpm 一 indata 
ram.lpm 一 outdata 
ram.lpm 一 file 








32; 

6； 

"registered"; 
’ ’registered"; 
,f mcmem.mif w : 


ram.lpm 一 address 一 control 


"registered 


7.4.2 测试程序代码 


因为只有一个存储器模块，所以测试程序和数据必须放在一起。 


DEPTH = 64; 

WIDTH = 32; 

ADDRESS 一 RADIX = HEX; 
DATA 一 RADIX = HEX; 

CONTENT 


% Memory depth and width are required % 
% Enter a decimal number % 
% Address and value radixes are optional % 
% Enter BIN, DEC, HEX, or OCT; unless % 
% otherwise specified, radixes = HEX % 


BEGIN 

(0..3F] : 00000000; % Range —— Every address from 0 to 3F = 00000000 


% 
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0 : 3c010000 

1 : 34240080 

2 : 20050004 

3 : 0C000018 

4 : ac820000 

5 : 8C890000 

6 : 01244022 

7 : 20050003 

8 : 20a5ffff 

9 : 34a8ffff 


A 


10 


19 


39085555 


B : 2009ffff 
C : 312affff 
D : 01493025 
E : 01494026 
F : 01463824 


lOaOOOOl 


11 : 08000008 


17 : 08000017 

18 : 00004020 


8c890000 


1A : 20840004 
IB : 01094020 
1C : 20a5ffff 
ID : 14a0fffb 
IE : 00081000 
IF : 03e00008 

20 : 000000A3 

21 : 00000027 

22 : 00000079 

23 : 00000115 

24 : 00000000 


lui rl, 0 
ori r4 f rl, 0x80 
addi r5, r0 f 4 
jal sum 
sw r2, 0 (r4) 
lw r9, 0(r4) 
sub r8, r9, r4 
addi r5, rO, 3 


% (00) main : 

% (04) 

% (08) 

% (0c) call : 

% ( 10 ) 

% (14) 

% (18) 

% (lc) 

% (20) loop2 : addi r5, r5, -1 


# address of data 【 0 】 

# address of data[0 】 

# counter 

# call function 

# store result 

# check sw 

# sub : r8 < —— r9 - r4 

# counter 

# counter - 1 


% 

% 

% 

% 

% 

% 

% 

% 

% 


% (24) 
% (28) 
% (2c) 
% (30) 
% (34) 
% (38) 
% (3c) 
% (40) 
% (44) 


ori r8 f r5 f Oxffff 
xori r8 f r8 f 0x5555 
addi r9, r0 f -1 


zero-extend: OOOOffff % 
zero-extend: OOOOaaaa % 
sign-extend: ffffffff % 


andi rl0 f r9,Oxffff # zero-extend: OOOOffff % 


or 


r6 f rlO, r9 


xor r8 f rl0 f r9 
and r7 f rlO, r6 


or: ffffffff 
xor: ffff0000 
and: OOOOffff 


% 

% 

% 


beq r5, rO, shift # if r5 


= 


0/ goto shift % 


loop2 


# jump loop2 


% 


12 

• 

• 

2005ffff ; 

% 

(48) 

shift : addi 

r5 # 

r0. 

-1 

# 

r5 = 

• 

ffffffff 

% 

13 

• 

• 

000543c0; 

% 

(4c) 

sll 

r8. 

r5 f 

15 

# 

«15 = 

ffff8000 

% 

14 

• 

• 

00084400; 

% 

(50) 

sll 

r8 f 

r8. 

16 

* 

<<16 = 

80000000 

% 

15 

• 

• 

00084403; 

% 

(54) 

sra 

r8. 

r8. 

16 

# 

>>16 = 

ffff8000(arith) 

% 

16 

• 

• 

000843c2; 

% 

(58) 

srl 

r8 # 

r8 f 

15 

# 

»15 = 

OOOlffff(logic) 

% 


% (5c) finish : 
% (60) sum: 


j finish 
add r8, rO, rO 


% (64) loop: lw 


r9 f 0 (r4) 


% ( 68 ) 
% (6c) 
% (70) 
% (74) 
% (78) 
% (7c) 


% (80) data[0] % 
% (84) data[l] % 
% (88) data[2] % 
% (8c) data[3] % 


addi r4, r4, 4 

add r8, r8, r9 
addi r5, r5 # -1 
bne r5, rO, loop 
sll r2, r8 f 0 


# dead loop 

# sum 

# load data 

# address 


4 


jr 


r31 


# sum 

# counter - 1 

# finish? 

# move result to vO 

# return 


% 

% 

% 

% 

% 

% 

% 

% 

% 


% (90) sum 


% 


END ; 


7.4.3 多周期 CPU 测试结果 

图 7.13 〜图 7.15 给出了部分仿真波形。为了方便检查，我们把每条指令所处的 
状态号 q 也显示出来了。注意 ， q = 0 表示 IF 状态，正在根据 PC 取指令。 IF 状态 
结束时，由时钟上升沿把指令存入指令寄存器 （ IR )。 IR 的内容一直保持到打人下一 
条指令为止。 
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Q. mccomp,v 轉 f 


□回 ® 


BB9BEEBSBB 


Start 


End: 


120 


160 ns 


200 


240 



t^2 


resetn 




clock 




Wi:_:i:_:i:i:iW —^M^M^—i:_:i: ■: •: -: i!— 




00000008 


0 


111 


@106 


39 


72 


m 


iiilill 


00000004 


3C010000 


00000000 


画 
iTiTitS^ 


00000000 


11 


iliTilS 


000 


ITITUI 


綠 238 I tom 


0000000 



Si mccomp.v，f 


□回区 I 


faster Time Bar: 


Pcwnter: 35.84 ns I nterval: 


End: 




28.0 ns 


32 0 ns 


360 


40.0 ns 


44.0 


48.0 


resetn 


clock 


MM —— Wi — 

【-:$):0:|:0 腸 %|:|:0:0:■: 

• ， :■ 服 iXilikoa—i 


图 7.13 多周期 CPU 仿真波形图 （1 〜 2) 

图 7.13 中的第一条指令是 ALU 计算类型的指令 （ lui ), 它需要4个周期，状态号 
为0、1、2和4，分别代表 IF 、 ID 、 EXE 和 WB d 在 IF 状态 ， PC = 0,从存储器取 
来指令，由 4 ns 处的 Clock 上升沿把指令打入 IR , 同时把 PC + 4 0 APC 0 
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Q mccomp.v 轉 f 


(3 回区 I 


Master Time Bar: 



S mccomp.vwf 




Master Time Bar: 


Start: 



图 7.14 多周期 CPU 仿真波形图 （3 〜 4) 


图 7.14 上半部分 PC = 00001 
它只需两个周期，转到 PC = 000 
令是 lw, 它需要最长的 5 个周期。 


0000000C 处的指令 (0C000018) 是子程序调用指令 jal. 


00000060 。 图 7.14 下半部分中 PC 




00000064 处的指 
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图 7.15 多周期 CPU 仿真波形图 （5 〜 6) 


图 7.15 上半部分 PC 




0000007C 处的指令 (03E00008) 是返回指令 jr ， 它只需两 


个周期 （IF 和 ID )。 在 ID 周期结束时，返回到 PC 




00000010处。下半部分是测试 


程序最后一条 j 指令跳转到自己处 （PC 




0000005C) 的波形 


o 


參 238 




FFFF 
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5•: 




參 40 


0000005C 

0000005C 



枝 3 


2 


1»0 


.0 


1.012 


992.p ns 996.p ns 1 0 f 


M aster T imc 


S tart: 
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Porter: 


End 


tom 



00000090 


14 


on 


^205 


00000258 


@172 
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^40 
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0 
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Pointer 418.85 


Interval: 


Start: 


End: 


pcadr 


mm 

frok a bdlto 




























7.5 习题 


203 




1. 试比较单周期 CPU 与多周期 CPU 各自的优缺点。 

2. 图 7.10 中的寄存器 A 、 B 和 DR 是否可以不用？ 

3. 用逻辑图输人的方法设计图 7.10 的 CPU 。 

4. 试用以下状态转移图设计多周期 CPU 。 


IF 

ID 

EXE 

MEM 

WB 



5. 设计一个多周期 CPU , 使 lui 指令用两个周期完成。 

6. 试书写 Verilog HDL 代码，以完全彻底的功能描述风格实现多周期 CPU 的设计 
并给出仿真波形。 

7. 我们在叙述单周期 CPU 与多周期 CPU 的设计方法时使用了相同的测试程序并 
给出了测试结果，从而我们知道了两种 CPU 在执行相同的测试程序时所用的 
时间。假设多周期 CPU 的一个时钟周期是 4 ns ， 而单周期 CPU 的一个时钟周 
期比多周期 CPU 的一个时钟周期的5倍略短一些，比如 19 ns 。 试从执行时间 
上比较两种 CPU 执行测试程序时的性能。 

8. 大 作业： 设计一个能处理异常和中断的多周期 CPU 使其能够处理诸如结果溢 
出等异常及外部的中断请求，并写出一份像样的报告、友情 提示： 在状态转 
移图中加入一些状态、专门应付异常和中断。 


1 致仍在使用 MS Word 的 读者： 建议大家以后写论文时尽跫少用 MS Word , 多用肌访。用 Word 既 
花钱效果 又差； 用 I 5 TeX 既免费效果又好，何乐而不为呢？作者见到用 Word 写的论文，不管是本科 
毕业设计论文、硕士论文、博士论文还是投到国际会议或杂志的论文，排版很差，尤其是公式，图的 
质最也很差，第一感觉就很不舒服，还没读具体的内容，头就先大了。有这种感觉的绝非作者一个 
人，你想，连微软公司的人写文章都用 I 5 TeX 。 从我做起，从现在做起，从课题报告做起。即使你没有 
Linux 环境，在 Windows 下也有各种方法可以 安装： 上网去找。如果你已经用了，稍微表扬自己一下。 
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本章介绍流水线 CPU 的设计以及精确中断的实现方法并给出 Verilog HDL 代 
码。本章介绍的流水线 CPU 具有以下特点： （1) 使用内部前推 (Internal Forwarding ) 
技术解决数据相关 问题； （2) 使用延迟转移 (Delayed Branch ) 技术解决控制相关问 
题； （3) 暂停流水线解决存储器访问的数据相关问题。 

8.1 流水线技术的基本概念 

几乎没有例外，现代化的工厂都采用流水线技术生产产品。试设想有一个汽车 
制造厂，不采用流水线技术，等一辆汽车生产完毕，再从头开始制造下一辆汽车， 
这样的工厂一年能生产几辆车？ 

如果把 CPU 执行一条指令看成工厂生产一辆汽车，我们也可以使用流水线技 
术： 不要等一条指令执行完成后再执行下一条指令，而是把一条指令的执行分成若 
干“级” （ Stage )， 不同的指令的不同的级可以在同一个周期同时执行。 

为了叙述方便，我们假设有一个 CPU 只能执行算术运算和存储器访问指令。以 
下的汇编程序把一个数组 x 的4个数据都加上一个标 M s (假设 s 在寄存器 rlO 中)。 
汇编程序共有12条指令，左边是地址，右边是注释，中间是指令。 


# addr instructions 

comments 





100 

lw 

r2, 

00 (rl) 

# 

r2 

<-- 

mem[rl+00] ; 

load 

x[0] 


104 

lw 

r3. 

04(rl) 

# 

r3 

< — 

mem[r 1 + 0 4 ] ; 

load 

x[l] 


108 

lw 

r4 f 

08 (rl) 

# 

r4 

< — 

mem[rl+08]; 

load 

x[2] 


112 

lw 

rb, 

12(rl) 

# 

r5 

< ― 

mem[rl+12]; 

load 

x[3] 


116 

add 

r6, 

r2 f rlO 

# 

r6 

< 一一 

r2 + rlO; x [0]= 

x[0] + 

s 

120 

add 

rl, 

r3 f rlO 

# 

rl 

<—— 

r3 + rlO; x[1]= 

x[l] + 

s 

124 

add 

r8 # 

r4 f rlO 

# 

r8 

<—— 

r4 + rlO; x[2]= 

x[2] + 

s 

128 

add 

r9 f 

r5, rlO 

# 

r9 

<—— 

r5 + rlO; x[3]= 

x[3] + 

s 

• 132 

sw 

r6. 

00(rl) 

# 

mem[rl+00] < —— r6; 

store 

丨 x[0] 


136 

sw 

rl, 

04(rl) 

# 

mem[rl+04] < —— r7; 

store 

- x[l] 


140 

sw 

rS f 

08(rl) 

# 

mem[rl+08] < —— r8; 

store 

’ x[2] 


144 

sw 

r9 f 

12(rl) 

# 

mem[rl+12] < —— r9; 

store 

x[3] 



图 8.1 是单周期 CPU 的电路。图中所示的是 CPU 执行第1条 lw r 2, 00( rl ) 指令 
的情形。执行该指令的步骤如下。 

1) IF ： 程序计数器 PC 的值为100;从指令存储器取出的是 lw 指令； 

2) ID ： 从寄存器 rl 读出 数据； 立即数符号 扩展； 

3) EXE ： 计算存储器 地址： ALU 做加法 ( ALU 的 b 输人端选择扩展后的立即 数)； 

4) MEM ： 使用计算好的地址访问存储器，从中读出一个32位的 数据； 

5) WB ： 最后把该数据写入寄存器堆中的 r 2 寄存器（时钟上升沿写人)。 
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Iw r2, 00(r 1 ) 



m 8.1 单周期 CPU 执行 lw 指令 


假设每个步骤都用 Ins , 则单周期 CPU 的周期长度为 5 ns ， 执行12条指令共需 
5 X 12 = 60 ns 。 如果是多周期 CPU ， 周期长度为 Ins , lw 指令用5个周期， add 和 
sw 指令各用4个周期，则执行以卜 . 12条指令共需5 X 4 + 4 X 8 = 52 ns 。 图 8.2 示 
出流水线 CPU 的时序以及单周期和多周期 CPU 的时序 


elk 1 1 

1 

|_ 

I lwr2, (KHrl) 

Iw r3 % 04(rl) 

Iwr4, 08(rl) 

(a) 单周期 CPU 时序 

dk r~L_n_n_r"Lr _ LJ _ LJ _ Lr _ LJ _ LJ _ LJ _ L_r _ LJ~Lj 

Iwr2. OCHrl) | IF | ID | EXE | MEM | WB 



lw r3,04<rl) 

IF | ID EXE | MEM | WB 



lwr4.08(rl) 

IF | ID | EXE 


(b) 多周期 CPU 时序 

| 1 | 2 I 3 I 4 I 5 I 6 I 7 I 8 I 9 I 10 I II I 12 I 13 I 





(c) 流水线 CPU 时序 


图 8.2 流水线 CPU 勺中 - 周期 / 多周期 CPU 的时序比较 
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流水线 CPU 执行以上 12 条指令共需 12 + 5-1 = 16ns 。 当指令充满流水线 
时，如图 8.2 中的第 5 •个周期 （粗 线及粗黑体部分)， 5 条指令同时在执行，不同的指 
令处在不同的级(重叠执行)。 

由于在一个周期有多条指令同时执行，我们必须把每一级的执行结果暂时保存 
起来，以便在下一级使用。因此，在流水线 CPU 中，除了 PC 寄存器，我们还要在 
每级结束的地方使用寄存器。这些寄存器称为流水线寄存器 (Pipeline Registers )。 

我们的流水线 CPU 共有 5 级，它们分 别是： （ 1) 取指令 IF 级； （ 2) 指令译码 ID 
级； （ 3) 指令执行 EXE 级； （ 4) 存储器访问 MEM 级； （ 5) 结果写回 WB 级。以下对这 
5 级所需的电路分别加以描述。 


8.1.1 取指令 IF 级的电路 

取指令 IF 级的电路如图 8.3 所示。它也是我们的流水线 CPU 的第 1 个 周期： 正 
在取第1条指令。这就像一所新建的大学，只有一年级的“新生”。 


| lw r2, 00(rl) 1 



图 8.3 流水线 CPU 的 IF 级 （第 1 个周期 ) 


最左边的流水线寄存器是程序计数器 PC, 第 2 个是指令寄存器 IR 。 在第 1 个 
周期结束时（时钟上升沿处)，把从指令存储器取出的指令写人 IR (从一年级升人二年 
级)，与此同时，把 PC + 4 写人 PC (招收新 生)。 

注意，实际的 CPU 可以执行转移和跳转指令，并非只是 PC + 4 。 我们将在后面 
描述流水线 CPU 如何执行转移和跳转指令。 









8.1 流水线技术的基本概念 


207 


8.1.2 指令译码 ID 级的电路 

第1条指令进人 ID 级(第2个周期)，如图 8.4 所示。在第2个周期有两项工作 
同时 在做： 对第1条指令译码和从指令存储器取第2条指令。两条指令在图的上方 
标出，即第1条指令处在 ID 级、第2条指令处在 IF 级。 


I lw r3 f 04(rl) _ I_lw r2, 00(rl) 



图 8.4 流水线 CPU 的 ID 级(第 2 个周期） 

处在 ID 级的第1条指令由 1 R 送出。根据指令中的 rs 和 rt ， 两个32位的数据从 
寄存器堆读出。与此同时，指令中的16位的立即数也被扩展为32位。注意， lw 指 
令并不使用从 rt 寄存器读出的数据。对该指令的译码由控制部件完成。控制信号的 
意义如下。 

1) regrt 为1时选择 rt 作为目的寄存器号，为0时选择 rd ; 

2) aluimm 为1时选择立即数送给 ALU 的 b 输入端，为0时选择寄存器数据； 

3) aluc 是 ALU 的操作控 制码； 

4) wmem 为1时写存储器，为0时不写； 

5) m 2 r eg 为1时选择存储器数据，为0时选择 ALU 的计算 结果； 

6) wreg 为1时把结果写入寄存器堆，为0时不写。 

除了 regrt 只在本级使用外，其他控制信号要被写人流水线寄存器，以备后续周 
期使用。因为当前指令为 lw ， 所以 regrt = l，aluimm = 1, aluc = X 000, wmem = 0, 

m 2 reg = 1, wreg = 1 0 在第 2 个周期结束时，3个流水线寄存器同时保存数据（当然 
也包括控制信号)。 
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8.1.3 指令执行 EXE 级的电路 

第1条指令进人 EXE 级（第3个周期)，如阉 8.5 所示。在 EXE 级， ALU 为 lw 
指令计算存储器 地址； 该级使用两个控制 信号： ealuimm 选择立即数、 ealuc 告诉 
ALU 做加法。在 EXE 级的控制信号的名称前面都加了一个字母 e ， 表示是 EXE 级的 
信号，以便与 ID 级的相应信号区别开来。 


lw r4 f 08(rl) [ lw r3 t 04(rl lwr2,00(rl) 



阁 8.5 流水线 CPU 的 EXE 级（第 3 个周期 ) 


第2条指令处在 ID 级，正在 译码； IF 级正在取第3条指令。同样，在第3个周 
期结束时，4个流水线寄存器同时保存数据。 

8.1.4 存储器访问 MEM 级的电路 

第1条指令进入 MEM 级（第4个周期)，如图 8.6 所示。其他指令也都前进了一 
级。由于是 lw 指令，该级读数据存储器.控制信号 mwmem 为0 ( 不写存储器)^在 
MEM 级的控制信号的名称前面都加了一个字母 m 。 在第4个周期结束时，5个流水 
线寄存器同时保存数据。 

8.1.5 结果写回 WB 级的电路 

第1条指令进入 WB 级（第5个周期)，如图 8.7 所示。控制信号的名称前面都加 
了一个 w 。 这时的控制信号 wm 2 reg 为1， wwreg 也为1，目的寄存器号为2，已经准 
备好了保存从数据存储器取出的数据，就等着时钟上升沿的到来了。 





流水线技术的基本概念 
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图 8.6 流水线 CPU 的 MEM 
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图 8.7 流水线 CPU 的 WB 级（第 5 个周期 ) 


这时的5级流水线均充满 f 指令。时钟上升沿到来时，把数据写入寄存器 r 2。 
这样，第1条 lw 指令就全部执行完毕。以后就是每个周期有一条指令“毕业”，同 
时有一条指令“报到”，“在校”的指令有5个“年级”。 
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8.2 流水线 CPU 的相关问题及解决对策 


是不是流水线 CPU 的设计就像第一节讨论的那样简单呢？当然不是。流水 
线 CPU 的设计有三大著名的问题需要解决。这三大问题是 （1) 结构相关 (Structural 
Hazard / Dependence ) 、 （2) 数据相关 (Data Hazard / Dependence ) 和 （3) 控制相关 (Control 
Hazard / Dependence )。 控制相关也称转移相关 (Branching Hazard / Dependence )。 

结构相关是指流水线 CPU 在同时执行多条指令时争用硬件资源而引起的冲突。 
一个典型的例子是，假设流水线 CPU 只使用一个存储器模块来存放指令和数据，而 
且该存储器模块不支持两个同时的访问。 lw 或 sw 指令在 MEM 级访问存储器，而流 
水线 CPU 在每个周期都要取出一条指令。也就是说在一个周期有两个存储器访问， 
这就造成了资源冲突。 

解决结构相关的方法比较简单。因为现在的 VLSI 技术能够在一个芯片内集成大 
量的晶体管，所以我们可以本着“缺什么补什么”的原则避免出现资源冲突。例如我 
们可以在流水线 CPU 芯片的内部集成分开的指令 Cache 和数据 Cache ,使得取指令 
和访问数据存储器能够同时进行。本节重点讨论数据相关和控制相关两大问题。 

8.2.1 数据相关及解决对策 


图 8.8 是流水线 CPU 的另一种両法，强调 WB 级结束时结果写回寄存器堆。 



图 8.8 流水线 CPU 的另一种圃法 

由于流水线 CPU 同时执行多条指令，指令之间会出现数据相关的问题，即一条 
指令还没有执行完，而它的后续指令要使用它的结果。我们看图 8.9 的例子。 

第1条指令 add r 3, rl ， r 2 在第 5 个周期结束时把相加结果写入寄存器 r 3。 后续的 
指令 sub 、 or 和 xor 在各自的 ID 级不能从寄存器 r 3 读岀正确的结果。 
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|1|2|3|4|5|6|7|8|9| 


cik (-irnr - L-r^LJL-TLJL-ri 



图 8.9 数据相关的例子 


如何解决这个数据相关问题？停流水线等待？不停！我们知道，第 1 条指令 add 
是由 ALU 实现加法操作。那么第2条指令 sub 由谁实现减法操作？也是 ALU 。 这 
就意味着 ALU 做减法时，加法已经完成。我们可以把刚刚岀炉的新鲜的加法结果直 
接送给下一条指令去吃。这就是所谓内部前推 （Internal Forwarding), 或称内部旁路 
(Bypass) o 我们的做法是把内部前推由 EXE 级移到 ID 级，如图 8.10 和图 8.U 所示。 
关键部件是 ID 级的两个四选一多路器，请检查它们的输入都来自何方。 

I 1 I 2 I 3 I 4 I 5 I 6 I 7 I 8 I 9 I 





图 8.10 解决数据相关问题——内部前推 

内部前推解决后续两条指令的数据相关问题。我们用时钟的下降沿在 WB 级保 
存结果（使用图 8.11 中的非门)，即 WB 级只用半个周期。内部前推由两个多路选择 
器实现，它们的控制信号 fWda 和 fwdb 用来选择合适的数据，在 ID 级结束时写入流 
水线寄存器。以下是产生 l\vda 和 iVdb 的 Verilog HDL 代码。注意代码的 次序： 先判 
断离它最近的指令。为什么呢？ 

always @ (ewreg, mwreg, ern, mrn, em2reg, mm2reg, rs, rt) begin 

fwda = 2 9 bOO; // default forward a: no hazards 
if (ewreg & (ern ! = 0) & (ern == rs) & *'em2reg) begin 

fwda = 2 9 bOl; // select exe—alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rs) & ~mm2reg) begin 

fwda = 2’blO; // select mem_alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rs) & mm2reg) begin 

fwda = bll; // select mem—lw 


end 
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elk 




fwdb = 2 9 bOO; // default forward b: no hazards 
if (ewreg & (ern != 0) & (ern == rt) & ^em2reg) begin 

fwdb = 2 f bOl; // select exe 一 alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rt) & ~mm2reg) begin 

fwdb = 2 f blO; // select mem 一 alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rt) & mm2reg) begin 

fwdb = bl1; // select mem—lw 

end 

end 

end 

end 

ALU 的计算结果可以从 EXE 级和 MEM 级前推到 ID 级，而 lw 指令从数据存储 
器读出的数据只能从 MEM 级前推到 ID 级。这意味着 lw 的后续指令如果与 hv 数据 
相关，需要把流水线暂停一个周期（“留级”），如图 8.12 所示。 





8.2 流水线 CPU 的相关问题及解决对策 


213 


lw 

sub 

or 

xor 

and 




lw | rl 

+ mem t| 

r3 





sub 

t9j3(§) t9j3 ^ 



「4 




or (S) or 

v3,r9 

i 




/ 

xor 

r3,i9 

A 

|r6| 

Pipeline stalls 


and 

r3,r9 

_ 


图 8.12 与 lw 指令数据相关需要暂停流水线 

我们町以很容易地写出流水线由于 lw 数据相关而需要暂停的 条件： 

stall = ewreg & em2reg & (ern != 0) & (i—rs & (ern == rs) I 

i_rt & (ern == rt)); 

其中， i_rs 和 i_rt 分别是使用 rs 和 rt 源操作数的指令， ern 是处在 EXE 级的冃的寄存 
器号。如何暂停流水线？非常简单。基本的想法就是不修改 PC 和11^我们使用带 
冇使能端的 D 触发器来实现 PC 和 IR 。 使能端接控制信号 wpcir = ^ stall 0 



阁 8.13 带有暂停功能的流水线 CPU 电路 


图 8.13 所示的是带有暂停和内部前推功能的流水线 CPU 电路。这里特别需要 
注意的是，如果不采取其他措施，停一级流水线将导致 IR 中的指令执行两次。因 
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此我们需要废弃一次指令的执行。如何废弃？非常简单，只需禁止它修改 CPU 的状 
态（封锁写信号）即可。假设原始的写寄存器信号和写存储器信号分别为 wreg_org 和 
wmem_org ,则新的写寄存器信号 wreg 和写存储器信号 wmem 分别为： 

wreg = wreg_org & wpcir; 
wmem = wmem_org & wpcir; 

8.2.2 控制相关及解决对策 

流水线 CPU 在执行转移或跳转指令时会出现控制相关的问题，即在实际转向目 
标地址之前，转移或跳转指令的后续指令已经取到流水线中来了，如图 8.14 所示。 
图 8.14( a ) 所示的是转移目标地址及条件在指令 beq 的 EXE 级确定，因而跟在 beq 后 
面的两条指令已进人流水线。如果转移目标地址及条件能够在 ID 级确定，则仅有 一 
条后续指令进入流水线，如图 8.14( b ) 所示。 



(a) 2 slots (b) 1 slot 


图 8.14 流水线 CPU 的控制相关问题 

解决控制相关问题的方法有多种，比如废弃后续指令的执行、延迟转移、转移 
预测等。我们这里使用一个周期的延迟转移 (Delayed Branch ) 技术解决流水线 CPU 
的控制相关问题。图 8.15 所示的是使用一个周期的延迟转移技术的流水线 CPU 的时 
序： 不管是否转移，转移指令(第 i 条）的后续一条指令(第 i +1 条)总是被执行，就 
好像它是第 i — 1条指令。我们称这个位置(周期）为延迟槽 (Delay Slot )。 现在的任务 
是确保每条引起转移的指令都能在 ID 级确定是否转移并汁算出转移地址。在我们的 
流水线 CPU 中，引起转移的指令有5 条： jr 、 beq 、 bne 、 j 和 jal 。 



(a) 转移没发生 （ b) 转移发生 


图 8.15 使用一个周期的延迟转移技术的流水线 CPU 的时序 

MIPS 指令系统原本就定义这些指令是一个周期的延迟转移指令（有一个延迟 
槽)。所有这5条指令在 ID 级计算出转移地址是没有问题的。由于 j 、 jal 和 jr 是无条 
件转移指令，在 ID 级确定是否转移更是没有问题。有问题的是 beq 和 bne 。 这是两 
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条条件转移指令。多周期 CPU 在 EXE 级由 ALU 比较出两个寄存器数据是否相等。 
为了确保实现一个周期的延迟转移，我们必须在 ID 级比较岀两个寄存器数据是否相 
等。我们可以使用异或门 ( XOR ) 和或非门 ( NOR ) 来实现这种比较。 

图 8.16 所示的是实现在 ID 级确定是否转移的电路。图中的 equ 比较出两个寄存 
器数据是否相等， pcsource [ l :0] 从4个地址中选择一个写入 PC : 00选择 PC + 4 ( 不 
转移 )， 01选择条件转移的目标地址 (beq 和 bne ), 10选择寄存器数据 ( jr ), 11选择跳 
转指令的目标地址 (j 和 jal )。 因此，我们有 

rsrtequ = ^| (da"db) ; 
pcsource[l] = i 一 jr | i 一 j | i 一 jal; 

pcsource[0] = i 一 beq & rsrtequ | i 一 bne & ~rsrtequ | i—j I i 一 jal; 


其中， da 和 db 是 ID 级的两个新鲜的数据， ijr 、 i _ j 、 i _ jal 、 Lbeq 和 Lbne 分别是指 
令 jr 、 j 、 jal 、 beq 和 bne 的译码输岀。 



图 8.16 在 ID 级确定是否转移 


8.3 流水线 CPU 的整体设计及 Verilog HDL 代码 

流水线 CPU 实现的指令与单周期和多周期 CPU 实现的指令相同，见表4.4。但 
要注意的是，单周期和多周期 CPU 忽略了 MIPS 转移类指令的延迟转移的特性，我 
们这里恢复这些指令的本来面目。 

8.3.1 流水线 CPU 的&体电路 

综合前一节的讨论我们可以画出流水线 CPU 的整体电路，如图 8.17 所示。由于 
jal 是一条延迟转移指令，返回地址应为 PC + 8,所以我们在 EXE 级又使用了一个加 
法器，对 PC + 4再加4 (也可在 1 D 级实现)。 
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图 8.17 流水线 CPU 的整体电路 


8.3.2 流水线 CPU 的 Verilog HDL 代码 

本小节给出流水线 CPU 的 Verilog HDL 代码。 一 些基本模块的代码，比如多路 
选择器、 ALU 和寄存器堆等，已经在前面各章列出了。 

1. 最顶层 Verilog HDL 代码 

以下是图 8.17 所示的流水线 CPU 整体电路的 Verilog HDL 代码。由以下模块 
构成： PC 、 IF 级的组合电路、 IF 级与 ID 级之间的流水线寄存器、 ID 级的组合电 
路、 ID 级与 EXE 级之间的流水线寄存器、 EXE 级的组合电路、 EXE 级与 MEM 级 
之间的流水线寄存器、 MEM 级的组合电路、 MEM 级与 WB 级之间的流水线寄存 
器、 WB 级的组合电路。 

module pipelinedcpu (clock,memclock,resetn,pc f inst,ealu,malu,walu); 

input clock,memclock,resetn; 

output [31:0] pc,inst,ealu,malu,walu; 
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wire [31:0] bpc,jpc,npc,pc4 , ins,dpc4 , inst,da f db # dimm,ea f eb f eimm 


wire [31:0] epc4, mb, mmo, wino, wdi; 
wire [4:0] drn,ernO,ern,mrn,wrn; 
wire [3:0] daluc f ealuc; // daluc 
wire [1:0] pcsource; 




aluc 


wire 

wire 

wire 

wire 


wire 


wpcir; 

dwreg,dm2reg f dwmem,daluimm,dshift,d j a1; 
ewreg,em2reg,ewmem,ealuimm,eshift,ejal; 
mwreg,mm2reg f mwmem; 
wwreg,wm2reg; 


pipepc prog_cnt (npc,wpcir,clock, resetn, pc); 
pipeif if—stage (pcsource,pc,bpc,da,jpc,npc,pc4 9 ins); 
pipeir inst—reg (pc4,ins,wpcir,clock,resetn,dpc4,inst); 
pipeid id 一 stage (mwreg,mrn,ern,ewreg,em2reg / mm2reg,dpc4,inst, 

wrn,wdi,ealu,malu,mmo,wwreg,clock,resetn, 
bpc,jpc,pcsource,wpcir,dwreg,dm2reg / dwmem, 
daluc,daluimm,da,db,dimm f drn,dshift,djal); 
pipedereg de—reg (dwreg,dm2reg,dwmem,daluc,daluimm,da,db,dimm, 

drn, dshift,djal,dpc4,clock,resetn, 

ewreg, em2reg f ewmem, ealuc, ealuimm,ea,eb,eimm, 

ernO, eshift,ejal,epc4); 

pipeexe exe 一 stage (ealuc,ealuimm,ea,eb,eimm,eshift,ernO,epc4 , 


ejal, ern,ealu); 


pipeemreg em 一 reg 


ewmem 


mwreg,mm2reg,mwmem,malu,mb,mrn); 


pipemem mem 一 stage (mwmem,malu f mb,clock,memclock,memclock,mmo) 
pipemwreg mw—reg (mwreg,mm2reg f mmo f malu,mrn,clock,resetn, 

泰 

wwreg,wm2reg,wmo,walu, wrn); 
mux2x32 wb 一 stage (walu,wmo,wm2reg,wdi); 


endmodule 


2. IF 级 Verilog HDL 代码 


1) PC 寄存器 

module pipepc(npc,wpc,elk,clrn,pc); 

input [31:0] npc; 

input wpc,elk,clrn; 

output [31:0] pc; 

dffe32 program 一 counter (npc,elk,clrn,wpc,pc); 
endmodule 

2) IF 级的组合电路（主要模块是指令存储器） 

module pipeif (pcsource,pc,bpc,rpc,jpe,npc,pc4,ins); 

input [31:0] pc,bpc,rpc,jpe; 
input [1:0] pcsource; 
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output [31:0] npc f pc4 # ins; 

mux4x32 next_pc (pc4,bpc,rpc,jpc,pcsource,npc); 
cla32 pc_plus4 (pc,32’ h4,1’ bO'pc4>; 
pipeimem inst 一 mem (pc,ins); 
endmodule 

以下是指令存储器代码。指令存储器初始化文件 pipeimem . mif 在下一节给岀。 

module pipeimem (a, inst); 

input [31:0] a; 
output [31:0] inst; 

lpm 一 rom 1pm 一 rom_component (.address(a[7:2]>,.q(inst)); 
defparam lpm—rom 一 component•lpm 一 width = 32, 

lpm 一 rom 一 component•lpm 一 widthad = 6 f 

lpm — rom 一 component•lpm 一 numwords = "unused", 

lpm 一 rom 一 component • lpm 一 file = ’’pipeimem.mif", 

lpm 一 rom 一 component•lpm 一 indata = "unused", 

lpm 一 rom 一 component•lpm 一 outdata = "unregistered", 

lpm 一 rom 一 component•lpm 一 address—control = "unregistered"; 

endmodule 

3. ID 级 Verilog HDL 代码 

1) IR 寄存器及 PC + 4 寄存器 

module pipeir (pc4, ins, wir,elk,clrn,dpc4,inst); 

input [31:0] pc4,ins; 
input wir,elk,clrn; 

output [31:0] dpc4 f inst; 

dffe32 pc 一 plus4 (pc4,elk,clrn,wir,dpc4); 
dffe32 instruction <ins,clk,clrn,wir,inst); 
endmodule 

2) ID 级组合电路（主要模块是寄存器堆和控制部件） 

module pipeid (mwreg,mrn,ern,ewreg,em2reg,mm2reg,dpc4,inst,wrn, 

wdi,ealu,malu,mmo,wwreg,elk,clrn,bpc,jpe,pcsource, 
nostall,wreg,m2reg,wmem f aluc,aluimm,a,b,imm,rn, 
shift,jal); 

input [31:0] dpc4,inst, wdi, ealu,malu,mmo; 
input [4:0] ern,mrn,wrn; 

input mwreg,ewreg,em2reg / mm2reg,wwreg; 

input clk,clrn; 

output [31:0] bpc,jpe,a,b,imm; 

output [4:0] rn; 

output [3:0] aluc; 

output [1:0] pcsource; 
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output nostall, wreg, m2reg / wmem f aluimm ， shift ， jal; 

wire [5:0] op,func; 


wire [4:0] 

rs, rt 

/ rd; 

wire [31:0] 

qa f qb f br 一 offset; 

wire [15:0] 

ext 16 

• 

9 

wire [1:0] 

fwda f 

f wdb; 

wire 

regrt 

, sext,rsrtequ,e; 

assign 

func 

=inst[5:0]; 

assign 

op 

=inst[31:26]; 

assign 

rs 

=inst[25:21]; 

assign 

rt 

=inst[20:16]; 

assign 

rd 

=inst[15:11]; 

assign 

jpc 

={dpc4[31:28] f inst[25:0] f 2 f b00}; 


pipeidcu cu (mwreg f mrn,ern,ewreg,em2reg,mm2reg / rsrtequ,func, 

op,rs,rt,wreg,m2reg,wmem,aluc,regrt,aluimm, 
fwda,fwdb f nostall,sext,pcsource, shift, jal); 
regfile rf (rs,rt,wdi,wrn,wwreg,clrn,qa,qb); 
mux2x5 des_reg—no (rd,rt,regrt f rn); 
mux4x32 alu—a (qa,ealu,malu,mmo,fwda,a); 
mux4x32 alu 一 b (qb,ealu,malu,mmo,fwdb,b); 
assign rsrtequ = ~|(a"b); // rsrtequ = (a == b) 

assign e = sext & inst[15]; 

assign ext16 = {16{e}}; 

assign imm = {extl6 f inst[15:0]}; 

assign br_offset = {imm[29:0],2'bOO}; 

cla32 br_addr (dpc4,br 一 offset,1'bO,bpc); 

endmodule 

控制 部件： 

module pipeidcu (mwreg,mrn,ern,ewreg,em2reg,mm2reg,rsrtequ,func,op,rs,rt, 

wreg,m2reg,wmem,aluc,regrt,aluimm,fwda,fwdb,nostall,sext, 
pcsource,shift,jal); 

input mwreg, ewreg, em2reg, mm2reg, rsrtequ; 
input [4:0] mrn, ern, rs, rt; 
input [5:0] func, op; 

output wreg, m2reg # wmem / regrt, aluimm, sext, shift, jal; 

output [3:0] aluc; 
output [1:0] pcsource; 

output [1:0] fwda, fwdb; // forwarding 

output nostall; // stall pipeline due to lw dependent 

reg [1:0] fwda r fwdb; 

wire r_type,i — add,i_sub # and,i 一 or,i 一 xor,i 一 sll,i 一 srl,i 一 sra,i 一 jr; 
wire i_addi,i 一 andi,i_ori,i 一 xori,i 一 lw,i 一 sw, ijbeq, i_bne,i—lui,i_j,i—jal; 
and(r 一 type ， ~op[5] r _op[4] ， "op[3],"op[2] # "op[1] # "op[0]); 

and(i_add,retype, func[5],~ func[4 】 ， •func[3],'func[2 】 ，~ func[1], - func[0]); 
and(i.sub,r—type, func [5], 'func [A], 'func 【 3],'func[2] # func [1], ^func[0]); 
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and(i 一 and,r—type, func[5] # ~func[4] ， ~func [3], func [2], ^ func [1],' func[0]) 
and(i_or, r 一 type, func[5] , ~func[4] f 'func[3 】 ,func[2 】， ~ func[1 】， func(0]) 
and(i—xor,retype, func[5],^ func[4] # 'func [3], func [2], func [1],' func[0]) 
and(i_sll # r—type，func[5]^•func[4 】 ,'func[3] f 'func[2] # ’func[1] / 'func[0]) 
and (i_srl / ir — type, • func [5 ] # ' func [4 】 ,~ func [ 3】 ,’ func [2], func [1], "func [0]) 
and(i_sra r r—type,'func [b]," func(4] # func[3] # 'func[2] # func [1], func[0]) 
and(i_jr # r_type # 'func [5], ~func[4] # func [3], ' func[2] f ^func[1] f 'func[0]) 
and(i_addi, - op[5], 、 op[4 】， op[3],'op[2],~op[1],’op[0 】 >; 

and(i_andi, 〜 op[5], 〜 op[4 】， op[3 】， op[2 】 ， 〜 op[1],-op 【 0 】 >; 
and<i_ori, ""opdopH 】， op[3] , op [2 ] f "op [ 1 ] , op[0]); 
and(i-Xori,~op 【 5 】 ， 'op[4 】 ， op[3], op[2], op(1] # 'op[0]); 
and(i—lw, op[5],’op[4 】 ,~op[3],—op 【 2 ], op[1] # op[0]); 
and(i_sw, op[5] f ’op[4 】， op[3] f ’op[2], op[l], op[0]); 
and(i—beq, ^op[5] :op[4 】， _op[3], op[2] f ~op[l] # ^op[0]); 
and(i_bne, ~op [5], *"op [4 】 , ’op 【 3] # op[2] f "op[l] # op [ 0 ]); 
and(i 一 lui, 一 op[5] 〆 op[4], op[3], op[2], op[1], op[0]); 
and<i_j, _op[5],-op[4 】， - 0 p[3] ， op[2], op [1 ]，op [0】> ; 
and(i_jal, ^op[5],~op[4] f ^op[3],^op[2] f op[1] f op[0]); 

wire i_rs = i 一 add I i_sub | i_and | i_or | i_xor | i_jr | i 一 addi | 

i 一 andi I i 一 ori I i 一 xori I i」w | i_sw | i 一 beq I i 一 bne; 

wire i_rt = i—add I i 一 sub | i_and | i_or | i_xor | i 一 sll | i 一 srl | 

i 一 sra I i — sw | i 一 beq I i_bne; 

assign nostall = ~(ewreg & em2reg & (ern != 0) & (i—rs & (ern == rs) I 

i_rt & (ern == rt))); 

always @ (ewreg or mwreg or ern or mrn or em2reg or mm2reg or rs or 

rt) begin 

fwda = 2 f b00; // default forward a: no hazards 
if (ewreg & (ern != 0) 6 (ern == rs) & 'em2reg) begin 
fwda = 2 9 bOl; // select exe 一 alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rs) & 'mm2reg) begin 
fwda = 2 # blO; // select mem_a1u 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rs) & mm2reg) begin 
fwda = 2’bll; // select meTn 一 lw 

end 

end 

end 

fwdb = 2 f bOO; // default forward b: no hazards 
if (ewreg & (ern != 0) & (ern == rt) & ~em2reg) begin 
fwdb = 2’b01; // select exe_alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rt) & 'mm2reg) begin 
fwdb = 2’blO; // select mem_alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rt) & mm2reg) begin 
fwdb = 2 # bll; // select mem_lw 
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end 

end 

end 

end 

assign wreg = (i_add | i 一 sub | i 一 and I i 一 or I i—xor | i 一 sll I 

i 一 srl I i 一 sra | i 一 addi | i_andi | i 一 ori | i 一 xori | 

i_lw I i」ui I i 一 jal) & nostall; 

assign regrt = i 一 addi | i_andi I i—ori I i 一 xori I i—lw | i 一 lui; 

assign jal = i 一 jal; 

assign m2reg = i—lw; 

assign shift = i 一 sll | i 一 srl I i 一 sra; 

assign aluimm = i—addi I i 一 andi | i_ori I i 一 xori | i_lw | i 一 lui | i_sw; 

assign sext = i 一 addi | i_lw | i—sw | i—beq | i 一 bne; 

assign aluc[3 】 =i 一 sra; 

assign aluc[2] = i 一 sub I i_or I i_srl | i_sra | i 一 ori | i 一 lui; 

assign aluc[1] = i 一 xor I i—sll I i 一 srl | i 一 sra | i 一 xori | i 一 beq | 

i 一 bne I i 一 lui; 

assign aluc[0] = i—and I i_or I i_sll | i_srl | i 一 sra | i 一 andi | 

i 一 ori; 

assign wmem = i 一 sw & nostall; 
assign pcsource[1] = i_jr | i_j I i_jal; 

assign pcsource[0] = i_beq & rsrtequ | i 一 bne & "rsrtequ | i 一 j | i 一 jal; 
endmodule 


4. EXE 级 Verilog HDL 代码 


1) ID 级和 EXE 级之间的流水线寄存器 

module pipedereg (dwreg,dm2reg,dwmem,daluc,daluimm,da f db,dimm, dm, 

dshift, djal, dpc4,elk,clrn,ewreg f em2reg,ewmem f 
ealuc,ealuimm,ea,eb,eimm,ern f eshift,ejal,epc4); 
input [31:0] da,db,dimm,dpc4; 

input [4:0] drn; 

input [3:0] daluc; 

input dwreg,dm2reg / dwmem,daluimm,dshift f djal; 

input clk f clrn; 

output [31:0] ea,eb,eimm,epc4; 

output [4:0] ern; 

output [3:0] ealuc; 

output ewreg,em2reg / ewmem,ealuimm,eshift,ejal; 

reg [31:0] ea,eb,eimm,epc4; 
reg [4:0] ern; 

reg [3:0] ealuc; 

reg ewreg,em2reg,ewmem,ealuimm,eshift f ejal; 

-always @(negedge clrn or posedge elk) 
if (clrn == 0) begin 

ewreg <= 0; em2reg <= 0; 
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ewmem 

<= 

0 


ealuc 

<= 

0 



ealuimm 

<= 

0 


ea 

<= 

0 



eb 

<= 

0 


eimm 

<= 

0 



ern 

<= 

0 


eshift 

<= 

0 



e jal 

<= 

0 


epc4 

<= 

0 



end else begin 








ewreg 

<= 

dwreg; 

em2reg 

<= 

dm2reg; 


ewmem 

<= 

dwmem; 

ealuc 

<= 

daluc; 


ealuimm 

<= 

daluimm; 

ea 

<= 

dc 

注； 


eb 

<= 

dl 

); 

eimm 

<= 

dimm; 


ern 

<= 

drn; 

eshift 

<= 

dshift; 


e jal 

<= 

djal; 

epc4 

<= 

dpc4; 


end 

endmodule 


2) EXE 级的组合电路（主要模块是 ALU 和返回地址的产生） 

module pipeexe (ealuc,ealuimm,ea,eb,eirrnn,eshift,ernO,epc4,ejal, ern, 

ealu); 

input [31:0] ea,eb,eimm,epc4; 

input [4:0] ernO; 

input [3:0] ealuc; 

input ealuimm,eshift f ejal; 

output [31:0] ealu; 

output [4:0] ern; 

wire [31:0] alua,alub,sa,ealuO,epc8; 

wire z; 

assign sa = {eimm[5:0] , eimm[31:6]}; // shift amount 

cla32 ret 一 addr (epc4 , 32’ h4,1’ bO,epc8); 
mux2x32 alumina (ea,sa,eshift,alua); 
mux2x32 alu 一 inb (eb,eimm,ealuimm,alub); 
mux2x32 save_pc8 (ealuO,epc8,ejal,ealu); 
assign ern = ernO | {5{ejal}}; 

alu al 一 unit (alua,alub, ealuc, ealuO, z); 
endmodule 

5. MEM 级 Verilog HDL 代码 

1) EXE 级和 MEM 级之间的流水线寄存器 

module pipeemreg (ewreg,em2reg,ewmem,ealu,eb,ern,elk,clrn, 

mwreg,mm2reg,mwmem f malu,mb, mrn); 
input [31:0] ealu,eb; 
input [4:0] ern; 
input ewreg,em2reg,ewmem; 

input clk,clrn; 

output [31:0] malu f mb; 
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output [4:0] 

mrn; 




output 

mwreg,mm2reg f 

mwmem; 



reg [31:0] 

malu, mb; 




reg [4:0] 

mrn; 




reg 

mwreg,mm2reg / 

mwmem; 



always @(negedge clrn or posedge elk) 


if (clrn == 0) begin 




mwreg 

<= 0; 

mm2reg 

<= 

0; 

mwmem 

<= 0; 

malu 

<= 

0; 

mb 

<= 0; 

mrn 

<= 

o; • 

end else begin 




mwreg 

<=ewreg; 

mm2reg 

<= 

em2reg; 

mwmem 

<=ewmem; 

malu 

<= 

ealu; 

mb 

<=eb; 

mrn 

<= 

ern; 


end 

endmodule 


2) 数据存储器代码。数据存储器初始化文件 pipedmem . mif 在下一节给出。 


module pipemem (we,addr,datain,elk,inclk,outelk,dataout); 

input [31:0] addr,datain; 

input elk,we,inclk,outclk; 

output [31:0] dataout; 


wire 

lpm—ram 一 dq 


defparam 

defparam 

defparam 

defparam 

defparam 

defparam 

endmodule 


write enable 


we & ~clk 


ram (•data(datain ) 9 .address(addr[6:2]), 

.we(write_enable ), .inclock (inclk ), 
• outclock(outclk) , .q(dataout)); 


ram.lpm_width 
ram.1pm 一 widthad 
ram.lpm—indata 
ram.lpm—outdata 
ram.lpm—file 






32; 

5 ； 

’’registered"; 
"registered” ； 
f, pipedmem.mif 


ram.lpm—address 一 control 


registered 


6. WB 级 Verilog HDL 代码 

1) MEM 级和 WB 级之间的流水线寄存器 


module pipemwreg 

input [31:0] 
input [4:0] 
input 
input 


(mwreg,mm2reg,mmo,malu,mrn,elk,clrn f 
wwreg,wm2reg,wmo f walu, wrn); 
mmo,malu; 
mrn; 

mwreg,mm2reg; 
elk,clrn; 
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output [31:0] wmo f walu; 
output [4:0] wrn; 


output 
reg [31:0] 
reg [4:0] 
reg 


wwreg,wm2reg; 
wmo,walu; 
wrn; 

wwreg,wm2reg; 




0 ) 


if (clrn 
wwreg 
walu 


end else begin 


< 

< 


wwreg 

walu 


< 


clrn or 

posedge 

elk) 


begin 

0; 

wm2reg 

<= 

0 ； 

wmo <= 0; 

0; 

wrn 

<= 

0 ； 


mwreg; 

wm2reg 

<= 

mm2reg; 

wmo <= mmo; 

malu; 

wrn 

<= 

mrn; 



end 

endmodule 


2) WB 级的组合电路只有一个多路选择器，已在最顶层模块中列出 


O 


8.4 流水线 CPU 的测试 

8.4.1 流水线 CPU 的测试程序 

指令存储器初始化文件 pipeimem . mif 如下所示。注意，该程序不是最优化的， 
比如要测试 lw 指令在数据相关时暂停流水线的情况，我们故意在它的下面安排了一 
条 sub 指令，使用 lw 指令从存储器取来的数据。 


DEPTH = 64; % Memory depth and width are required % 

WIDTH = 32; % Enter a decimal number % 

ADDRESS_RADIX = HEX; % Address and value radixes are optional % 

DATA 一 RADIX = HEX; % Enter BIN, DEC, HEX, or OCT; unless % 

% otherwise specified, radixes = HEX % 

CONTENT 

BEGIN 


[0..IF] : 00000000; % Range--Every address from 0 to IF = 00000000 % 

0 : 3c010000; % (00) main : lui rl, 0 # address of data[0 】 % 

1 : 34240050; % (04) ori r4 9 rl, 80 # address of data[0] % 

2 : OcOOOOlb; % (08) call: jal sum # call function % 

3 : 20050004; % (0c) dslot1 : addi r5, rO, 4 # counter,DELYED SLOT(DS) % 

4 : ac820000; % (10) return: sw r2, 0 (r4) # store result % 

5 : 8c890000; % (14) lw r9, 0 (r4) # check sw % 

6 : 01244022; % (18) sub r8, r9, r4 # sub: r8 <-- r9 - r4 % 

7 : 20050003; % (lc) addi r5 # rO, 3 # counter % 

8 : 20a5ffff; % (20) loop2 : addi r5 # r5, -1 # counter - 1 % 

9 : 34a8ffff; % (24) ori r8 # r5 f Oxffff# zero-extend: OOOOffff % 

A : 39085555; % (28) xori r8, r8, 0x5555# zero-extend: OOOOaaaa % 

B : 2009ffff; % (2c) addi r9 f r0 f -1 # sign-extend: ffffffff % 
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C : 312affff 
D : 01493025 
E : 01494026 
F : 01463824 

10 : 10a00003 

11 : 00000000 
12 : 08000008 

13 : 00000000 

14 : 2005ffff 

15 : 000543C0 

16 : 00084400 

17 : 00084403 

18 : 000843c2 

19 : 08000019 
1A : 00000000 
1B : 00004020 
1C : 8C890000 
1D : 01094020 
1E : 20a5ffff 
IF : 14a0fffc 

20 : 20840004 

21 : 03e00008 

22 : 00081000 
END ; 


% 

(30) 


andi 

% 

(34) 


or 

% 

(38) 


xor 

% 

(3c) 


and 

% 

(40) 


beq 

% 

(44) 

dslot2 : 

nop 

% 

(48) 


# 

D 

% 

(4c) 

dslot3 : 

nop 

% 

(50) 

shift : 

addi 

% 

(54) 


sll 

• 

% 

(58) 


sll 

% 

(5c) 


sra 

% 

(60) 


srl 

% 

(64) 

finish: 

t 

D 

% 

(68) 

dslot4 : 

nop 

% 

(6c) 

sum: 

add 

% 

(70) 

loop: 

lw 

% 

(74) 


add 

% 

(78) 


addi 

% 

(7c) 


bne 

% 

(80) 

dslot5 : 

addi 

% 

(84) 


jr 

% 

(88) 

dslot6: 

sll 


rl0 # r9,0xffff# zero-extend: OOOOffff % 
r6, rlO, r9 # or: ffffffff % 
r8 # rlO, r9 # xor: ffff0000 % 
rl, rlO, r6 # and: OOOOffff % 
r5 f rO, shift # if r5 = 0 # goto shift % 

# DS % 
loop2 # jump loop2 % 

# DS % 
r5 f rO, -1 # r5 ffffffff % 
r8, r5, 15 # <<15 = ffff8000 % 
r8, r8, 16 * «16 = 80000000 % 
r8 # r8, 16 * >>16 = ffff8000(arith) % 
r8 f r8 f 15 # >>15 = OOOlffff(logic) % 
finish # dead loop % 

# DS % 
r8, rO, rO # sum % 
r9, 0(r4) # load data % 
r8 # rS, r9 # sum % 
r5, r5, -1 # counter - 1 % 
r5, rO, loop # finish? % 
r4, r4, 4 # address + 4 f DS % 
r31 # return % 
r2, r8, 0 # move result to vO, DS % 


数据存储器初始化文件 pipedmem . mif ： 

DEPTH = 32; % Memory depth and width are required % 

WIDTH = 32; % Enter a decimal number % 


ADDRESS_RADIX = HEX; % Address and value radixes are optional % 
DATA 一 RADIX = HEX; % Enter BIN, DEC, HEX, or OCT; unless % 

% otherwise specified, radixes = HEX % 

CONTENT 

BEGIN 


[0..IF] : 00000000; % Range 一一 Every address from 0 to IF = 0 % 


0 

參 

參 

BF800000; 

% 

1 01111111 00 

• .0 

fp 

-1 


% 

14 

• 

• 

000000A3; 

% 

(50) 

data [0] 

0 

+ 

A3 = 

A3 

% 

15 

• 

♦ 

00000027; 

% 

(54) 

data[1] 

A3 


27 = 

CA 

% 

16 

• 

# 

00000079; 

% 

(58) 

data[2] 

CA 

+ 

79 = 

143 

% 

17 

• 

• 

00000115; 

% 

(5C) 

data[3] 

143 

+ 

115 = 

258 

% 


END ; 


8.4.2 流水线 CPU 的仿真波形 

以下波形图是流水线 CPU 执行以上程序时 Quartus II 的输岀结果，其中的信号 

按流水线级 IF 、 ID 、 EXE 、 MEM 和 WB 次序排列，每级一个。 

_ 
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8.5 精确中断和异常事件处理 


在第6章，我们描述了单周期 CPU 的异常和中断处理，本节描述流水线 CPU 
如何处理异常和中断。与单周期和多周期 CPU 不同，流水线 CPU 有多条指令同时 
在运行，你找不出一个时间点，说所有在流水线的指令都执行完毕。因此，流水线 
CPU 处理异常和中断要比单周期和多周期 CPU 处理异常和中断复杂得多。另外流水 
线 CPU 还允许延迟转移，进一步增加了流水线 CPU 处理异常和中断的复杂程度。 

如果流水线 CPU 处理异常和中断能像单周期 CPU 做得那样漂亮，我们就说该 
流水线 CPU 具有精确中断 （Precise Interrupt / Exception ) 机制 d 具体地讲，如果我们把 
中断或异常发生的时刻定为一个时间点，那么精确中断就是要保证在该时间点以前 
的指令都要安全地执行完，在该时间点以后的指令就像没执行过似的，即不改变计 
算机的任何状态。本节讲述在流水线 CPU 中如何实现精确中断并给出具体的 Verilog 
HDL 代码。 


8.5.1 异常事件和中断的种类以及相关的寄存器 

流水线 CPU 处理异常事件和中断时所使用的寄存器见图 8.20。 它们与图 6.9 给 
出的 3 个寄存器基本相同，只是在 Cause 寄存器中增加了一位 BD 。 如果引起异常事 
件的指令是在转移或跳转指令的延迟槽中， BD 置1,正常情况下清零。如果有外部 
,中断请求并且这时在流水线 ID 级的指令是处在延迟槽中，也把 BD 置1。 


Cause (#12): 


Status (#13): 


EPC (#14): 


31 30 4 3 2 10 


BD 

Unused 


ExcCode 1 0 

31 

8 

7 4 

3 0 

Unused 

S[3:0] 

IM[3:0] 

31 



0 

EPC 


图 8.20 与流水线 CPU 处理异常事件和中断有关的3个寄存器 

我们仍以第6章描述的中断和异常的种类为例加以说明，见表 8.1 和图8.21。注 
意表中最右列给出了异常或中断可能出现在流水线的哪一级。 


表 8.1 各流水线级可能出现的异常或中断 


ExcCode 

助记符 

种类 

屏蔽 

描述 

出现在 

mam 

Int 

中断 

IM [0] 

外部中断 

任意级 

l 

Sys 

异常 

IM [1] 

执行系统调用指令 

ID 级 

2 

Unimpl 

异常 

IM [2] 

试图执行没有实现的指令 

ID 级 

3 

Ov 

异常 

IM [3] 

算术操作时结果溢出 

EXE 级 
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IF . ID . EXE . MEM 


WB 



图 8.21 各流水线级可能出现的异常或中断 


按照老规矩，中断时 EPC 保存返回 地址； 异常时 EPC 保存引起异常的指令的地 
址。但是，如果引起异常的指令是在延迟槽中，则 EPC 保存延迟转移指令的地址。 
因此我们必须要用某种手段判断出一条指令是否是在延迟槽中。还有，当异常或中 
断发生时，我们需要报废后续指令甚至当前指令。 

见图 8.22, 假设指令 12 是引起异常的指令。如果异常事件是 Sys 或 Unimpl , 则 
在 ID 级就可判断出来。这时，可以生成 cancel 信号，经流水线寄存器送到 EXE 级 
( e _ cancel ) 去封锁下一条指令 （13) 在 ID 级的信号。如果要封锁下下一条指令 （14)， 可 
使用 MEM 级的 m.cancel o 


11 | IF 

wmsm 

| EXE 

MEM 

WB 


branch 

is-branch 

e 」 s_branch 

1 

m 」 S-branch 

1 



12 

IF 

1 ID 

EXE | 

MEM | WB 


cause.exc 

cancel 

e.cancel 

m.cancel 



IF 

ID 


EXE 

MEM 

WB 




i 



14 

IF 


ID 

EXE 

MEM 


图 8.22 判断延迟槽及报废指令的手段 

至于要确认 ID 级的指令是否处在延迟槽，则可使用 EXE 级的 e . is_branch 信 
号，它来自于 ID 级对指令的译码。如果是转移或跳转指令，则将 i S _branch 置1。同 
理，使用 m _ is_branch 可以确定 EXE 级的指令是否在延迟槽中。 

8.5.2 流水线 CPU 的中断响应过程 


CPU 响应中断时要停止当前程序的执行，转入中断处理程序，处理完毕再返 
回。如果中断发生时 CPU 正在执行转移指令或正在执行处在延迟槽中的指令，情况 
就会变得比较复杂。一种解决方案是把中断请求先保存下来，等到 CPU 比较“稳定” 
时再响应中断。这就相当于单位的领导说“知道了，等我们研究研究”。本书的做法 
不是这样，不管领导有多忙，中断请求来了就立即响应。 

为了实现精确中断，我们把中断请求出现的时刻分为以下三种 情况： 











230 


第 8 章流水线 CPU 及其 Verilog HDL 设计 


1) 当中断请求出现时，处在 ID 级的指令刚好是一条转移（或跳转） 指令; 

2) 当中断请求出现时， ID 级的指令刚好处在延 迟槽； 

3) 除了情况1和2的其他情况(一般情况)。 


1. ID 级执行转移指令时来了中断 


转移指令要把转移的目标地址送入 PC , 而响应中断时要把中断处理程序的入口 
地址送入 PC 。 两个地址只能有一个送入 PC 。 送谁？当然是中断处理程序的人口地址 
了。转移指令的武功就这样被废了。但不用伤心，我们把转移指令的地址送人 EPC 
(注意不是转移的目标地址)。从中断处理程序返回时，再重新执行它。 


intr 


IF 


ID 


IF 


NPC 

EPC 


PC 


BASE 


EXE 


ID 


IF 


MEM 


EXE 


ID 


Branch 


WB 1 


MEM 


EXE 


ID 


D^lot 


wb| 


MEM 


WB 


EPC 

Cause 

Status 

PC 


PCD 

Int 

Status << 4 


Cancel 


BASE: \ 

IF 

mm 

EXE 

MEM 

WB 



IF 

mm 

EXE 

MEM 

WB 


wepc 




PCD 



EPC 


2 


I I - e .cancel 


intr 


图 8.23 在转移指令的 ID 级遇见中断 

见图8.23。如果转移指令的地址是 IF 级的 PC ， 那么在 ID 级就是 PCD (跟着指 
令走)。 ID 级结束时，把 PCD 写入 EPC (返回地址)，把异常和中断处理程序的人口 
地址 BASE 写人 PC 。 与此同时，在 ID 级产生的 cancel 信号也被写入流水线寄存器， 
它在 EXE 级的输出为 ^ cancel ， 用来废掉下一条（处在延迟槽的）指令的武功。从中 
断返回时，直接把 EPC 的值写人 PC ， 重新执行转移指令。 

% 

2. ID 级是延迟槽时来了中断 

中断来时 ID 级正好是延迟槽怎么办？让延迟槽的指令执行完。那么往 EPC 写 
什么返回地址呢？当然应该是延迟槽 h 面的转移指令计算出的转移目标地址了，也 
就是现在正忙着取指令的那个 PC 。 注意 Cause 寄存器中的 BD 位要置1，见图8.24。 

图 8.24 中在延迟槽的指令的 ID 级结束时，转移目标地址的指令实际上已经取来 
了，我们要用 exancel 把它废掉。从中断返回时，要重新执行这条被废掉的指令。因 
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阁 8.24 在延迟槽的指令的 ID 级遇见中断 


此要把当前的 PC 保存在 EPC 。 转移指令要把自己是转移指令的消息送到 EXE 级， 
以使 ID 级的指令能够判断出自己是否在延迟槽中过 fcl 子呢。 

3. —般情况下来了中断 


一般情况下 （ ID 级的指令不是转移指令并且 ID 级也不处在延迟槽）来了中断比 
较 好办： 在 ID 级响应中断，废弃下一条指令，并把下一条指令的地址（也就是 PC ) 
写入 EPC , 见图8.25。它与第2种情况类似，只是不需要设置 BD 。 



MEM 


Cancel 


BASE: 


EXE 


MEM 


EXE MEM 




wepc 


EPC 


NPC 


PC 


EPC 


BASE 



阁 8.25 —般情况下遇见中断 
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8.5.3 流水线 CPU 处理异常事件 


流水线 CPU 处理异常事件时是把引起异常事件的指令的地址写人 EPC 。 如果该 
指令是处在延迟槽中，则把它上面的转移或跳转指令的地址写人 EPC , 并把 BD 位 
置1。以下详细描述流水线 CPU 处理系统调用 syscall 、 未实现的指令 unimpl 和算术 
结果溢出三种异常事件时所采取的措施。 


1. 系统调用 syscall 

无论是使用汇编语言编程还是使用高级语言编程然后编译，我们都可以不让系 
统调用指令出现在延迟槽中，因此我们只考虑通常情况下系统调用指令的执行情 
况。图 8.26 是流水线 CPU 执行系统调用 syscall 指令时的流水状 况：在 ID 级转到异 
常和中断处理程序并废弃它下面的指令。 EPC 保存的是 syscall 指令的地址 PCD 。 图 
中 EPC 输入端接一多路器，修改 EPC 时选择 DATA 。 


IF 


ID 


IF 


EXE 


ID 


IF 


MEM 


EXE 


ID 


syscall 


WB 


MEM 


EXE 


ID 


WB 


MEM WB 


EPC 

< = 

PCD 

Cause 

<■ 

Sys 

Status 

< = 

Status << 4 

PC 

<* 

BASE 


IF 

Cancel 


BASE: ^ 

IF 

ID 

EXE 

MEM 

WB 



IF 

ID 

EXE 

MEM |WB 


wepc 


DAT 

PCD 



EPC 


1 I - e.cancel 

2 


图 8.26 执行 syscall 指令时的流水线 


2. 未实现的指令 unimpl 

图 8.27 是流水线 CPU 执行处在延迟槽的未实现的指令时的流水线。此时 EPC 
要保存的是它上面的转移指令的地址 PCE ， Cause 寄存器中的 BD 位要置1。 

图 8.28 是流水线 CPU 执行一般情况下的未实现的指令时的流水线。它与执行 
syscall 指令时的流水线类似。 

3. 算术结果溢出 

结果溢出出现在 EXE 级，比人家要晚一个周期。注意溢出时结果不能往寄存器 
堆中保存，因此要在 EXE 级封锁 wreg 信号。另外， ID 级的指令也要被废弃。 










8.5 精确中断和异常事件处理 


233 



2 


阅 8.27 执行处在延迟槽的未实现的指令时的流水线 

# 



2 


图 8.28 执行一般情况下的未实现的指令时的流水线 

图 8.29 是流水线 CPU 处在延迟槽的指令结果溢出时的流水线。此时 EPC 要保 
存的是它上面的转移指令的地址 PCM 。 Cause 寄存器中的 BD 位要置1。 

图 8.30 是流水线 CPU 一 般情况下的结果溢出时的流水线。 EPC 要保存的是引起 
溢出指令的地址 PCEo 

表 8.2 总结了异常事件和中断出现时 CPU 在 ID 级结束时往 EPC 中写人的内 
容。 Sys 和 Unimpl 是在 1 D 级被判断出，它们都不可能是转移指令。转移指令本身在 
ID 级不使用 ALU ， 不会上溢。 
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EXE MEM WB 


EXE MEM 






Cancel ： 


EPC <= PCM 
Cause <= Ov (BD=1) 
Status <■ Status << 
PC <= BASE 


Cancel 


BASE: 


EXE 


MEM WB 


EXE MEM 


PCD 


PCE 


DATA 

PCM* 


EPC 


£ 


NPC 


EPC 


PC 




▲ 


处在延迟槽的指令结果溢出时的流水线 




EPC 

Cause 


PCE 

Ov 


Status <= Status 


t. 


Cancel 


Cancel 


BASE: 


EXE 


MEM WB 


EXE 


MEM 


PCD 


DATA 
PCE * 


EPC 


NPC 


EPC 


PC 


■ 




毳 


30 


般情况下的结果溢出时的流水线 


异常和中断出现时写 EPC 各种情况的总结 


级是延迟转移指令 


发生在延迟槽 


其他 


EPC 


PCD 


EPC 


PC 


EPC 


PC 


不可能 


不可能 


不出现 


不允许 


EPC 


EPC 


PCE 


PCM 


E ? C <= PCD 


EPC 右 PCD 


EPC 


PCE 
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8.6 带有处理异常和中断功能的流水线 CPU 的设计 

8.6.1 流水线 CPU 的总体结构 

我们在图 8.17 的基础上实现精确中断和异常事件处理。图 8.31 示出新增电路部 
分，主要是围绕 Status、Cause 和 EPC 三个寄存器而设计的。注意这三个寄存器有各 
自的写使能端，它们分别是 wsta、wcau 和 wepc 。 

• _ intr . milJ inta _ • 




图 8.31 流水线 CPU 实现精确中断和异常事件处理的电路 


通过前一节的讨论，我们已知在异常或中断发生时，可能写人 EPC 的数据 
有 PC 、 PCD 、 PCE 和 PCM 。 使用四选一多路器，我们可以得到多路器的选择信号 
sepc [ l :0] f 如下 。 DATA (图 8.31 中的 db ) 的选择用一个二选一多路器实现。 


// isbr eisbr misbr others 

// exc—int PCD (01) PC (00) PC (00) PC (00) 

// exc_sys - x PCD (01) PCD (01) 

// exc 一 uni - PCE (10) PCD (01) PCD (01) 

// exc 一 ovr cancel - PCM (11) PCE (10) 


sepc[1] = exc 一 uni & eisbr | exc—ovr; 
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sepc[0] = exc 一 int & isbr | exc_sys I 

exc—uni & ^eisbr | exc—ovr & misbr; 

CPU 可以使用 mfcO 和 mtcO 指令读写 Status 、 Cause 和 EPC 寄存器，其流水线 
见图8.32。写 Status 、 Cause 和 EPC 在 ID 级完成，读 Status 、 Cause 和 EPC 与一般的 
ALU 运算指令相同。 


mfcO: 


IF ID EXE MEM WB 

mtcO: 

IF 

ID 


阁 8.32 mfcO 和 mtcO 货令的流水线 


8.6.2 流水线 CPU 的 Verilog HDL 代码 


本小节给出能够精确处理异常和中断的流水线 CPU 的 Verilog HDL 代码。建议 
读者在阅读代码时要不时回过头来看看图 8.17 基本的流水线 CPU 的电路和图 8.31 有 
关处理异常和中断的电路。 

module pipelined—cpu 一 exc 一 int (clock,memclock, resetn, pc, inst,ealu, malu,walu, 

intr,inta); 

input clock,memclock,resetn, intr; 
output [31:0] pc,inst,ealu, malu, walu; 
output inta; 


parameter 
wire [31:0] 
wire [4:0] 
wire [3:0] 
wire [1:0] 
wire 
wire 


EXC—BASE = 32 # h00000008; // = base = BASE 

bpc, jpc f npc ， pc4/ins ， pc4d ， inst ， da,db ， imm,mmo/wdi; 

rn, ern; 

aluc; 

pcsource; 

wpcir; 

wreg, m2reg,wmem / aluimm,shift,jal; 


//PC 

dffe32 program 一 counter (next_pc,clock,resetn,wpcir,pc}; // PC 
//IF 


cla32 pc_plus4 (pc,32'h4,1’bO,pc4>; // PC+4 
mux4x32 nextpc (pc4,bpc,da,jpc,pcsource,npc); // Next PC 
lpm—rom lpm—rom—component (•address(pc [1:2]), .q(ins)); 
defparam lpm—rom 一 component•1pm 一 width = 



lpm 一 rom 一 component•1pm 一 widthad 
lpm 一 rom—component•1pm—numwords 
lpm 一 rom 一 component • lpm_.file 
lpm—rom 一 component • 1pm 一 indata 
lpm—rom—component•1pm 一 outdata 








6 , 

’■unused ’、 

”sci 一 intr.mif", 
"unused^ f 
"unregistered", 


lpm—rom—component • lpm—address 一 control 


"unregistered 



// pipeline registers : IF-ID 
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dffe32 pc—4 一 r (pc4,clock,resetn,wpcir ， pc4d> ; // PC+4 reg 
dffe32 inst 一 r (ins,clock,resetn,wpcir ， inst>; // IR 
dffe32 pcd 一 r ( pc,clock,resetn,wpcir, pcd); // PCD reg 
wire [31:0] pcd; 

"ID 

wire [31:0] qa,qb; 
wire [1:0] fwda,fwdb; 
wire 【 5:0 】 op = inst[31:26]; 

wire [4:0] rs = inst[25:21]; 

wire [4:0】rt = inst[20:16]; 

wire [4:0] rd = inst[15:11]; 

wire 【 5:0] func = inst[5:0]; 

assign imm = {{16{sext&inst[15]}} f inst[15:0]}; 

assign jpc = {pc4d[31:28 】 ， inst 【 25 :0],2’bOO}; // jump target 

regfile rf (rs,rt,wdi,wrn,wwreg,—clock,resetn,qa, qb}; // reg file 
wire regrt; 

mux2x5 des_reg_.no (rd, rt, regrt, rn) ; // destination reg 
mux4x32 operand 一 a (qa,ealu,malu,mmo,fwda,da); // forward A 
mux4x32 operand_b (qb,ealu,malu,mmo,fwdb,db>; // forward B 
wire rsrtequ = ~|(da^db); // rsrtequ = (da == db) 
cla32 br—addr (pc4d,{imm[29:0 】 ， 2'bOO},1’bO,bpc); // branch target 
wire [1:0] sepc; 

wire sext,ov,exc,mtcO,wepc,wcau,wsta,isbr,arith,cancel; 

cu—exc 一 int cu (mwreg,mrn,ern,ewreg,em2reg,mm2reg,rsrtequ,func,op,rs,rt, 

rd,rs,wreg,m2reg,wmem,aluc,regrt,aluimm,fwda,fwdb, 
wpcir,sext,pcsource,shift,jal,intr,sta,ecancel,ov, 
earith,eisbr,misbr,inta,selpc,exc,sepc,cause,mtcO,wepc, 
wcau,wsta,mfcO,isbr,arith,cancel); 
wire [31:0] sta,cau,epc,sta 一 in,cau—in,epc 一 in, // new for interrupt 

stair,epcin,epclO,cause,pc8c0r,next_pc; 
wire [1:0] mfc0,selpc; 

dffe32 cO 一 Status (sta—in,clock,resetn,wsta,sta); // Status register 
dffe32 c0—Cause (cau — in,clock,resetn,wcau,cau); // Cause register 
dffe32 c0—EPC (epc 一 in,clock,resetn,wepc, epc) ; // EPC register 
mux2x32 sta 一 mx (stair,db,mtcO,sta—in); // mux for Status reg 
mux2x32 cau—mx (cause,db,mtcO,cau—in); // mux for Cause reg 
mux2x32 epc—mx (epcin,db,mtcO,epc_in); // mux for EPC reg 
mux2x32 sta」r ({ 4 / h0 f sta [31:4] }, {sta [27 : 0 】 ， 4' hO}, exc, stair); 
mux4x32 epc」0 (pc, pcd, pee, pcm, sepc, epcin) ; // select epc source 
mux4x32 irq—pc (npc, epc, EXC—BASE, 32 〃 hO, selpc, next__pc) ; // for PC 
mux4x32 fromcO (epc8,sta,cau,epc,emfcO,pc8c0r}; // for mfcO 

// pipeline registers : ID-EXE 

reg [31:0] ea,eb,eimm,epc4,pee; 
reg [4:0] ernO; 
reg [3:0 】 ealuc; 

reg ewregO,em2reg,ewmem,ealuimm,eshift,ejal; 
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reg [1:0] emfcO; // new 
reg earith,ecancel,eisbr; // new 

always @(negedge resetn or posedge clock) 
if (resetn == 0) begin 


ewregO 

<= 

0 

em2reg 

<= 

0 

ewmem 

<= 

0 ； 

ealuc 

<= 

0 

ealuimm 

<= 

0 

ea 

<= 

0 ； 

eb 

<= 

0 

eimm 

<= 

0 

ernO 

<= 

0 ； 

eshift 

<= 

0 

e jal 

<= 

0 

epc4 

<= 

0 ； 

earith 

<= 

0 

ecancel 

<= 

0 

eisbr 

<= 

0 ； 

# 

emf cO 

<= 

0 

pee 

<= 

0 





end else begin 

ewregO <= wreg; em2reg <= m2reg; ewmem <= wmem; 

ealuc <= aluc; ealuimm <= aluimm; ea <= da; 

eb <= db; eimm <= imm; ernO <= rn; 

eshift <= shift; ejal <= jal; epc4 <= pc4d; 

earith <= arith; ecancel <= cancel; eisbr <= isbr; 

emfcO <= mfcO; pee <= ped; 

end 
// EXE 

wire [31:0] alua,alub,sa,ealuO,epc8; 
wire zero; 

assign sa = {eimm[5:0] 9 eimm[31:6]}; 

cla32 ret 一 addr (epc4,32’ h4,1’ bO,epc8); 

mux2x32 alu—ina (ea f sa,eshift,alua); 
mux2x32 alu—inb (eb,eimm,ealuimm,alub); 

mux2x32 save_pc8 (ealuO,pc8c0r,ejal|emfcO[1]|emfcO[0],ealu); // cO regs 
assign ern = ernO | {5{ejal}}; 

alu 一 ov al—unit (alua,alub,ealuc,ealuO,zero,ov); 

wire ewreg = ewregO & '(ov & earith); // cancel ov inst 

// pipeline registers : EXE - MEM 

reg [31:0] malu,mb,pem; // new : pem 

reg [4:0] mrn; 

reg mwreg, mm2 reg, mwinem; 

reg misbr; // new 

always @(negedge resetn or posedge clock) 
if (resetn == 0) begin 

mwreg <= 0; mm2reg <= 0; mwmem <= 0; 

馨 

malu <= 0; mb <= 0; mrn <= 0; 

misbr <= 0; pem <= 0; 

end else begin 

mwreg <= ewreg; mm2reg <= em2reg; mwmem <= ewmem; 

malu <= ealu; mb <= eb; mrn <= ern; 

misbr <= eisbr; pem <= pee; 

end 
// MEM 

lpm 一 ram—dq ram (•data(mb)address 《 malu[6:2]),•we(mwmem & 'clock) f 
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•inclock(memclock) # .outclock(memclock) , .q(mmo)); 
defparam ram.lpm 一 width = 32; 

defparam ram.lpm_widthad = 5; 

defparam ram.lpm 一 indata = "registered ”； 

defparam ram.lpm 一 outdata = "registered ”； 

defparam ram.lpm—file = "scd 一 intr.mif ”； 

defparam ram.lpm 一 address—control = "registered"; 

// pipeline registers : MEM-WB 
reg [31:0] wmo,walu; 

reg [4:0] wrn; 

reg wwreg f wm2reg; 

always @(negedge resetn or posedge clock) 
if (resetn == 0) begin 

wwreg <= 0; wm2reg <= 0; wmo <= 0; 

walu <= 0; wrn <= 0; 

end else begin 

wwreg <= mwreg; wm2reg <= mm2reg; wmo <= mmo; 

walu <= malu; wrn <= mrn; 

end 
// WB 

mux2x32 wb 一 stage (walu,wmo,wm2reg f wdi); 
endmodule 

以下是控制单元的代码。 

module cu—exc 一 int (mwreg,mrn,ern,ewreg,em2reg,mm2reg,rsrtequ,func,op,rs,rt, 

rd,opl,wreg,m2reg,wmem,aluc,regrt,aluimm,fwda,fwdb, 
wpcir,sext,pcsource,shift,jal,intr,sta,ecancel,ov f 
earith, eisbr,misbr,inta,selpc,exc,sepc,cause f mtcO,wepc, 
wcau,wsta,mfcO,isbr,arith, cancel); 
input mwreg, ewreg, em2reg, mm2reg, rsrtequ; 
input [4:0] mrn, ern, rs, rt, rd f opl; 
input [5:0] func, op; 

output wreg, m2reg f wmem, regrt, aluimm, sext, shift, jal; 

output [3:0] aluc; 
output [1:0] pcsource; 

output [1:0] fwda, fwdb; // forwarding 

output wpcir; // stall pipeline due to lw dependent 

// new for interrupt/exception 

input intr,ecancel,ov,earith,eisbr,misbr; 

input [31:0] sta; // IM[3:0] : ov,unimpl,sys,int 

output inta,exc,mtcO, wepc, wcau,wsta,isbr,arith,cancel; 

output [1:0] selpc,mfcO,sepc; 

output [31:0] cause; 

assign isbr = i 一 beq | i 一 bne | i_j | i 一 jal; 
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assign arith = i 一 add | i 一 sub | i—addi; 
wire overflow = ov & earith; 


assign inta 
wire exc 一 int 

wire exc—sys 
wire exc—uni 

wire exc_ovr 

assign exc 
assign cancel 
assign sepc [1] 
assign sepc [0] 

// ExcCode 
// 0 0 : intr 


=exc 一 int; 

=sta[0] & intr; 

=sta[1] & i_syscall; 

=sta[2] & unimplemented—inst; 

=sta[3] & overflow; 

=exc 一 int | exc—sys I exc 一 uni | exc 一 ovr; 
=exc; // always cancel next inst 
=exc 一 uni & eisbr | exc_ovr; 

=exc 一 int & isbr I exc 一 sys | 

exc 一 uni & ~eisbr | exc—ovr & misbr; 


// 0 1 : i 一 syscall 

// 1 0 : unimplemented_inst 

// 1 1 : overflow 


wire ExcCodeO = i 一 syscall | overflow; 

wire ExcCode1 = unimplemented—inst | overflow; 

assign cause = {eisbr,27 # hO,ExcCodel,ExcCodeO, 2, b00}; // BD 

assign mtcO = i 一 mtcO; 

assign wsta = exc I mtcO & rd—is 一 status | i—eret; 

assign wcau = exc I mtcO & rd—is 一 cause; 

assign wepc = exc I mtcO & rd 一 is 一 epc; 


wire 

rd. 

.is. 

一 status = 

(rd == 

5 # dl2); 

// 

cpO 

Status register 

wire 

rd_ 

is 

一 cause = 

(rd == 

5 # dl3); 

// 

cpO 

Cause register 

wire 

rd_ 

_i s_ 

.epc = 

(rd == 

5 # dl4); 

// 

cpO 

EPC register 


// mfcO 
// 0 0 : pc+8 

// 0 1 : sta 

// 1 0 : cau 

// 1 1 : epc 

assign mfcO[0] = i 一 mfcO & rd 一 is—status | i—mfcO & rd 一 is—epc; 
assign mfc0 【 l] = i—mfcO & rd 一 is—cause | i—mfcO & rd 一 is—epc; 


// selpc 
// 0 0 : npc 
// 0 1 : epc 
"10: EXC^BASE 
// 1 1 : x 

assign selpc 【 0] = i—eret; 
assign selpc[1] = exc; 


wire cO 一 type= ~op[5] & op[4] &~op[3] &"op[2] &~op[1] &"op[0]; 
wire i 一 mfcO = cO 一 type & - opl[4] &^opl[3] &~opl[2] &"opl[1] &_opl[0 】； 
wire i-mtc0 = cO 一 type &~opl [4] &'opl [3] & opl [2] &**opl [1] &"opl [0]; 
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wire i 一 eret = cO — type & opl[4 】 &’opl[3 】 & ~opl[2] & ~opl[1] & 一 opl[0] & 

- func[5】 & func[4J & func[3] &~func[2] &’func[l] i^func[0]; 
wire i 一 syscall = i ■ 一 type & 'func[5] func 【 4】 & func[3] & func[2] & 

~func[l 】 &-func[0]; 

wire unimplemented_inst = ~(i—mfcO | i—mtcO | i_eret | i 一 syscall | 

i 一 add I i_sub I i 一 and I i—or I i 一 xor I i 一 sll | i_srl I i_sra I 
i_jr I i_addi | i_andi | i_ori | i_xori | i_lw | i_sw | i_beq | 
i 一 bne| i_luiI i_j 丨 i_jal>; 

wire r 一 type, i 一 add, i 一 sub, i — and, i — or, i 一 xor, i 一 sll, i 一 srl, i 一 sra, i 一 jr; 

and(retype,~op[5] # ~op[4] f 'op[3] # ~op[2] # ~op[1] # 'op[0]); // r format 

and (i—add, retype, func 【 5], ~ func [4 ] , ~func [3】，'func [2], _func [ 1 】 ，"* func [0]) 

and(i 一 sub,r 一 type, func[5],~func[4],~func [3], ~func [2], func[1],~func[0]) 

and(i—and,r—type, func[ 5】 ，~ func[4],~ func[ 3 】 ， func[2], - func[1],~ func 【 0]) 

and(i—or, r 一 type, func[5] # ~func[4] # "func[ 3 】 ， func[2], 一 func[1], func[0]) 

and(i 一 xor,r 一 type, func[5],~func[4],~func[3 ] 9 func [2], func[1] # ~func 【 0]) 

and(i 一 sll,r_type, 一 func[5],•func[4],~func[3 】， *func [2], _func[1], 一 func[0]) 

and(i 一 srl,r 一 type, - func 【 5】 ，~ func[4],"func[3],'func[2], func 【 1],~func[0]) 

and(i_sra f retype,~func [5]," func[4] f -func[3】，— func[2], func[1], func[0]) 

and(i 一 jr, r 一 type,'func[5], ~func[4] , func[3 】， “func 【 2 】 ， ^func[1],~func[0]) 

wire i_addi, i 一 andi, i 一 ori, i 」 cori, i 一 lw, i—sw, i 一 beq, i_bne, i—lui; 

and 《 i_addi, 一 opdop[4]' op[3 】， ~op[2],~op[l 】， ~op 【 0]>; 

and(i_andi, 一 op[5],~op[4], op[3 】， op[2 】 〆 op[1],~op 【 0 】 ）； 

and 《 i—ori, ’op[5]op[4], op[3 】， op[2] 〆 op[l], op[0】>; 

and(i_xori f ~op[5], "*op[4], op[3 】， op[2], op[l] # ~op[0]); 

and(i_lw f op[5] ， ’op[4 】， ~op[3 】 ， 'op[2 】 ， op[l], op[0]); 

andU-SW, op[5], ~op[4], op[3] # ^op[2] # op[l], op [ 0 ]); 

and(i—beq, "op [5], "op [4] f -"op [3], op [2], ^op [1 ] f ^op [0]); 

and(i 一 bne, ~op[5]op[4] ， ~op[3】, op[2] ， ~op[1] ， op[0]); 

and(i 一 lui ， ~op 【 5] ， ~op[4 ] ， op[3 】， op[2], op[l], op(0]); 

wire i—j,i_jal; 

and(i_j, ~op[5] / ^op[4],~op[3] # *op[2] f op[l] f ~op[0]); 
and(i-jal ， "op[5] # ^op[4] # ~op[3] # ^op[2] f op[l], op[0]); 

wire i_rs = i 一 add | i 一 sub | i_and | i 一 or | i 一 xor | i_jr | i 一 addi | 

i 一 andi | i 一 ori | i 一 xori | i_lw | i_sw | i 一 beq I i_bne; 

wire i_rt = i 一 add | i 一 sub | i 一 and | i—or | i_xor | i 一 sll | i 一 srl | 

i 一 sra I i_sw | i 一 beq | i—bne | i 一 mtcO; 

assign wpcir = ~(ewreg & em2reg & (ern != 0) & (i 一 rs & (ern == rs) | 

i_rt & (ern == rt))); 

s 

reg [1:0] fwda, fwdb; 

always @ (ewreg or mwreg or ern or mrn or em2reg or mm2reg or rs or rt) 
begin 

fwda = 2^00; // default forward a: no hazards 
if (ewreg & (ern != 0) & (ern == rs) & ~em2reg) begin 
fwda = bOl; // select exe 一 alu 
end else begin 
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if (mwreg & (mrn != 0) & (mrn m rs) & 一 mm2reg) begin 
fwda = 2’blO; // select mem 一 alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rs) & mm2reg) begin 
fwda = bll; // select mem 一 lw 

end 

end 

end 

fwdb = 2 # bOO; // default forward b: no hazards 
if (ewreg & (ern ! = 0) & (ern == rt) & *"em2reg) begin 
fwdb = 2 f bOl; // select exe_alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rt) & ~mm2reg) begin 
fwdb = 2 r blO; // select mem 一 alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rt) & mm2reg) begin 
fwdb = 2'bll; // select mem 一 lw 

end 

end 

end 

end 

assign wmem = i—sw & wpcir & ^ecancel & ~exc 一 ovr; //cancel next inst 

assign wreg =(i — add | i 一 sub | i_and | i 一 or | i_xor | i 一 sll I 

i 一 srl I i_sra | i 一 addi I i 一 andi I i 一 ori | i 一 xori | 
i_lw I i 一 lui I i_jal I i—mfc0) & 

.wpcir & ~ecancel & ~exc 一 ovr; // cancel next inst 
assign regrt = i 一 addi |i_andi |i 一 ori | i_xori Ii_lw |i 一 lui |i 一 mfcO; 
assign jal = i 一 jal; 

assign m2reg = i_lw; 

assign shift = i 一 sll I i 一 srl | i 一 sra; 

assign aluimm = i 一 addi | i__andi | i 一 ori | i 一 xori I i—lw I i 一 lui |i_sw; 

assign sext = i—addi I i—lw | i_sw | i_beq | i_bne; 

assign aluc[3] = i—sra; 

assign aluc[2] = i 一 sub I i_or | i_srl | i—sra | i 一 ori | i—lui; 
assign aluc[1] = i_xorIi_sllIi—srl|i_sraIi 一 xori|i—beqli 一 bneIi 一 lui; 
assign aluc[0] = i_and Ii_or |i 一 sll Ii 一 srl Ii 一 sra |i 一 andi |i—ori; 
assign pcsource[1] = i_jr | i 一 j | i 一 jal; 

assign pc.source [0] = i 一 beq & rsrtequ | i 一 bne & ’rsrtequ | i—j | i—jal; 
endmodule 

8.6.3 异常和中断的测试程序与仿真波形 

测试程序用第6章的 sci . intr . mif , 测试数据用 sccLintr . mif 。 阁 8.33 〜图 8.37 给 
出了中断出现的三种不同的情况，请检查每种情况下的返回地址。 Sys 、 Unimpl 和 
Ov 的波形就不再给出了。 
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图 8.33 流水线 CPU 精确中断仿真波形图（通常情况下的中断) 



阁 8.34 流水线 CPU 精确中断仿真波形图（通常情况下的中断返回) 


图 8.33 示出的是通常情况下的中断。中断发生时， ID 级的指令是 OxOOOOOOAO 
处的 addir 5， r 0,4 指令。该指令被执行，而从 0 x 000000 A 4 处取来的指令被废弃。因 
此，执行完中断处理程序后，返回到 0 X 000000 A 4( 见图8.34)。 

图 8.35 示出的是在 ID 级执行 bne r5, rO, loop 指令时出现中断的情况。该指令的 
地址是 0X000000B8 。 这是一条转移指令，因此要被废弃。执行完中断处理程序后， 
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图 8.35 流水线 CPU 精确中断仿真波形图（转移指令处 中断) 
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图 8.36 流水线 CPU 精确中断仿真波形图（转移中断返回及延迟槽处中断) 


要返回到 0 x 000000 B 8 处，重新执行 bne r 5, rO , loop 指令。 

图 8.36 示出了在 ID 级执行延迟槽中的指令时出现中断的情况。转移指令是 
OxOOOOOOB 8 处的 bne r 5, rO , loop 指令。因为我们的方案是把转移指令 bne 和其延迟槽 
中的指令 nop 都执行完，因此执行完中断处理程序后，要返回到 0 X 000000 A 8 处，即 
bne 的转移目标地址 loop , 见图8.37。 
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图 8.37 流水线 CPU 精确中断仿真波形图（延迟槽中断返回) 


8.7 习题 

1. 设一个流水线 CPU 的流水线级数为 m , 每一级占用一个时钟周期。 （1) 计算该 
CPU 执行 n 条指令所需的周 期数； （2) 给出 CPI 的 公式； （3) 当 n 比 m 大很多 
时，求 CPI 。 

2. 为什么在流水线 CPU 中会出现数据相关和转移相关的问题？简述解决这些问 
题的思路和方法。 

3. 在图 8.19 的流水线 CPU 仿真波形的 56 ns 〜 60 ns 期间， ealu 的值为什么是 
0 x 00000 146? 

4. 用逻辑图输入的方法设计本章的流水线 CPU 。 

5. 本章给出的流水线 CPU 的 VerilogHDL 代码总体来讲具有结构描述风格。试从 
顶层开始就使用功能描述风格的 Verilog HDL 重新设计流水线 CPU 。 

6. 重新设计异常处理 电路： 允许 syscall 指令出现在延迟槽中。 

7. 修改 sci _ intr . mif , 使其能够测试 Unimpl 和 Ov 发生在延迟槽时的情况。 

8. 使用一个带有置1和清零端的 D 触发器来保存外部中断请求，重新设计中断 
响应电路，使其只在一般情况下响应中断。即在 ID 级的指令是转移或跳转指 
令或 ID 级处在延迟槽的情况下不响应中断。注意，当外部电路收到中断确认 
后，应主动撤销中断请求。 

9. 实现一个计时器中断。 

10. 调查其他的实现精确中断的方法并写岀一份报告。 

11. 调査转移预测 (Branch Prediction ) 技术并写出一份报告。 




第 9 章浮点算法及 FPUVerilogHDL 设计 

到目前为止，我们设计的 CPU 中只有整数部件 IU (Integer Unit )。 如果要对小数 
进行计算，则需要有相应的电路支持。支持小数计算的电路有两种：定点部件和浮 
点部件。定点部件与整数部件没有本质的区别，只是要假设有一个小数点存在于某 
两位数之间，计算时要把小数点对齐。 

浮点部件 FPU (Floating Point Unit ) 与定点部件不同，因为浮点数的小数点不是 
固定的（浮点的全称是浮动小数点)。当然，浮点数也是用二进制数来表示的，但这些 
二进制数位有不同的意义。以前各有名的公司，如 IBM 等，都定义了自己的浮点数 
格式。由于各公司的浮点数格式不同，使得程序和数据不能共享。自 IEEE 754浮点 
标准宣布之后，各公司基本上都放弃了自己的格式，而采用了 IEEE 754标准。 

本章首先简要介绍 IEEE 754浮点格式的定义，然后给出单精度浮点数与整数之 
间的转换算法以及单精度浮点数的加、减、乘、除和开方的算法。所有的算法均给 
出 Verilog HDL 的实现源代码 o 

9.1 IEEE 754浮点数格式 


IEEE 754标准【 5 】主要定义了单精度和双精度两种浮点数格式。单精度浮点数使 
用32位二进制数来表示，而双精度浮点数用64位。如果我们在 Java 或 C 语言程序 
中分别用 float 和 double 定义两个变: M ： ，例如： 

float s = -1.75; 
double x = 1.75; 

则编译器会把它们分别转换成单精度和双精度浮点数。以下我们重点介绍单精度 
浮点数格式。图 9.1 给出了 32位 IEEE 754单精度浮点数格式。它由3部分 组成： 
第31位是符号位 s ( Sign )， 0代表正数，1代表 负数； 第30〜23位是8位阶码位 e 
( Exponent ) ；第22〜0位是23位尾数位 f ( Fraction )。 


31 30 23 22 0 


( 1 ) ( 8 ) 

图 9.1 IEEE 754单精度浮点数格式 

如果0 < e < 255,单精度浮点数的值为（一 l) s X 2 C - 127 X l . fo 我们称其为规 
格化数。注意在计算规格化数值的公式中有一项为 l . f ， 其中小数点前面的1称为隐 
藏位，它并不占用32位中的任何一位。阶码用移码表示，偏移值为127。例如，假 
设我们有一个单精度浮点数，它的32位二进制表示是 


1』1 1111 11-1 1000000000000000000000 




9.2 单精度浮点数与整数之间的转换 
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则该浮点数的值为（一 I ) 1 X 2 127 " 127 X 1.11 = 一（1 + 0.5 + 0.25) =—1.75。也就是 
说，编译器会把 float s = -1.75 转换成1：面的32位二进制数。 

绝对值最小的规格化数为 X -00 CJ 00001 J 30000000000000000000000， 它的 

绝对值是2- 126 x 1.0。如果要表示一个比它还要小的非0数值，我们可以用所谓非 
规格化 格式： 如果 e = 0,单精度非规格化浮点数的值为（一 l) s X 2- 126 x O . f 。 例 
如， 1-00000000-11000000000000000000000 的数值为-2" 126 X 0.75。 

如果 e = 0并且 f = 0，它的数值为+0或 一 0。如果 e = 255并且 f = 0,它 
表示 +oo (无穷大）或 一 00。如果 e = 255并且 f / 0，它表示它自己不是一个数 
( NaN , Not a Number)。NaN 是需要的，例如 oo — oo = NaN 。 

IEEE 754 双精度浮点数格式用 64 位二进制数表示，它的阶码占用11位，尾数 
有52位。规格化数值为（一 l ) s x 2 e _ 1 G 23 xl . f ， 非规格化数值为（一 l ) s x 2_ 1 Q 22 x 0. f 。 
其余与单精度浮点数的定义类似。 

9.2 单精度浮点数与整数之间的转换 

浮点数与整数之间的转换是我们在编写程序时经常用到的操作，本节讨论单精 
度浮点数与用32位补码表示的整数之间的转换算法并给岀 Verilog HDL 源代码。 

9.2.1 浮点数转换成整数 

我们知道，32位补码表示的整数 d 满足 一2 31 彡 d 彡+2 31 — 1，而单精度浮点 
数所能表示的数的范围比32位整数大得多，因此很多浮点数是不能被转换成整数 
的。以下我们通过一个例子说明转换方法。 

设浮点数3 = = 0.10011101.1 1111111111111111111111 2 ,则 s a = 

0, e a = 127 + 30， l . f a = l . llllllllllllllllllllllho 由 e a 的值可知，我们要把 
1. f a 的小数点右移30位。因此整数结果 d = 011111111111111111111111 IOOOOOOO2 = 
7 ffm 0 ]6 = 2147483520,0 c 这也是能够正确转换成整数的最大浮点数。 

由上例我们总结岀单精度浮点数转换成32位整数的 方法： 首先在24位的 lf a 
的右边补8个0,使它变成32位整数。即我们已经把小数点右移了 31位。如果 
e a < 127 + 31，我们还要把这个32位整数右移。因此我们确定必须右移的位数为 
127 + 31 — e a 。 如果浮点数为负，我们还要把它转换成负数(取反加1)。 

如果浮点数超出了 一2 31 〜（+2 31 — 1) 的范围，我们令 d = 80000000 16 并把 
标志 invalid 置1，表示结果无效。另外，由于浮点数能表示小数，如 a = 0.5, 而 
整数不能，因此我们还给出标志位 precisimUost ， 表示精度已经损失。以下给出一 
个精度损失的例子。设 a = 3 fc 00000 i 6 = 0_01111111」0000000000000000000000 2 , 
则 Sa = 0, e a = 127, lf a = 110000000000000000000000 2 。由于要把 lf a 右移 127 + 
31 - e a = 31 位，结果变为00000000000000000000000000000001.1 2 。小数点右面的 
1将被遗弃，造成精度损失。表 9.1 给出了 12个单精度浮点数转换成32位整数的例 
子，其中的输出信号 denormalized 表示浮点数为非规格化数。 
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表 9.1 单精度浮点数转换成32位整数举例 


单精度浮点数 

4effffff 

4f000000 

3f800000 

* 

3f000000 

00000001 

3fc00000 

32 位整数 

7fffff80 

80000000 

00000001 

00000000 

00000001 

00000001 

precision-lost 




• 1 

1 

1 

denormalized 




HI9H 

1 


invalid 


i 


IHEH 

HKH 

■B 

单精度浮点数 

cfOOOOOO 

cf000001 

bf800000 

bf7fffff 

80000001 

00000000 

32 位整数 

80000000 

80000000 

ffffffff 

00000000 

00000000 

00000000 

precision-lost 

HDHI 



1 

1 


denormalized 

IKH 




1 


invalid 


1 

■DH 

HKHI 

■BBI 



以下是 Verilog HDL 源代码。为了能够检测岀精度是否损失，我们在移位过程中 
使用了 56位数据格式，其中左32位是结果，右24位是被移出的位。若右24位不是 
全0,则表示结果精度损失。 


module f2i (a,d,precision 

input [31:0] a; 
output [31:0] d; 
output precision 一 lost 
output denormalized; 
output invalid; 
reg [31:0] d; 
reg precision 一 lost; 
reg invalid; 


lost,denormalized,invalid); 
// float 

// int range : -2"{31} 一 +2 
// => 00000000 
// => 00000000 
// (inf, nan, out 一 of — range 〉 




—> 80000000 


wire hidden 一 bit = | a [30:23]; 
wire frac—is 一 not 一 0 = |a[22:0]; 

assign denormalized = 'hidden—bit & frac — is_not—0; 
wire is 一 zero = "hidden 一 bit & ~frac—is 一 not—0; 
wire sign = a[31]; // sign 

wire [8:0] shift 一 right 一 bits = 9’b010011110 - {1/bO,a[30:23]}; 

wire [55:0] fracO = {hidden 一 bit, a [22 •• 0], 32, hO}; 

wire [55:0] f—abs = ($signed(shift 一 right 一 bits> > 9 # h20)? 

fracO >> 6 f h20 : fracO >> shift 一 right 一 bits; 
wire lost 一 bits = |f_abs[23:0]; 

wire [31:0] int32 = (sign)? - f—abs[55:24] : f_abs[55:24 】 ； 

always @ * begin 

if (denormalized) begin //den 
precision—lost = 1; 
invalid = 0; 
d = 32 f hOOOOOOOO; 
end else begin // not den 

if (shift 一 right 一 bits[8]) begin // too big 
precision 一 lost = 0; 
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invalid = 1; 
d = 32 # h80000000; 
end else begin // shift right 

if (shift 一 right—bits[7:0] > 8 f hlf) begin//too small 

if (is 一 zero) precision 一 lost = 0; 
else precision 一 lost = 1; 
invalid = 0; 
d = 32^00000000; 
end else begin 

if (sign != int32[31]) begin // out of range 
precision 一 lost = 0; 
invalid = 1; 
d = 32^80000000; 
end else begin // normal case 

if (lost—bits) precision 一 lost = 1; 
else precision 一 lost = 0; 
invalid = 0; 
d = int32; 

end 

end 

end 

end 

end 

endmodule 


单精度浮点数转换成 32 位整数的 Verilog HDL 代码的仿真结果如图 9.2 所示 



f 


4 EFFFFFF X 4 FOOOOOO )f 3 FSQOOOO X 3 FOOOOOO 


00000001 


7 FFFFF 80 X 80000000 


00000001 


7 F 800000 

80000000 


3 FCOOOOO 


00000001 


■ 「1 署 1 

■O precisionjost 

J 

[ 

| 

denormalized 

J 

| • 


-G> invalid | | 


― 1 - 

- 1 



d 

•O precis»on_lost 
denormalized 
■O invalid 


CFOOOOOO x CF 000001 )C 



fffffffTY 


BF 7 FFFFF X 80000001 / 




图 9.2 单精度浮点数转换成 32 位整数仿真结果 


为了验证以上代码的正确性，作者用 C 写了一个程序，用来测试 X 86 FPU 浮点 
数到整数的转换结果。该程序首先从键盘读入一个十六进制表示的32位浮点数，然 
后使用 x 86 汇编指令 fldcw 把一个16位的浮点控制字写人浮点控制寄存器。浮点控 
制寄存器每位的意义在图 9.3 中给出，主要完成的任务是屏蔽 FPU 产生的异常。 
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舍入控制精度控制 


异常屏蔽 



无穷大控制 



00 

01 

10 

11 


就近舍入 
向下舍入 
向上舍入 
向0舍入 



00: 24位 
01:保留 
10: 53位 
11: 64位 


无效操作 
非规格化 
除以0 
上溢 
下溢 

精度损失 


罔 9.3 FPU 浮点控制寄存器 ( x 86) 


在完成浮点数到整数的转换之后，使用 fstsw 汇编指令读取状态寄存器，以检査 
有哪些异常出现。浮点状态寄存器的格式在图 9.4 中简要给出。在转换之前，我们使 
用了 fclex 指令来清除状态寄存器中的所有异常标志。 


异常标志 


/ - \ 

15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 


C 3 



C 2 C\ Co 


寄存器 
栈顶指针 


FPU 

忙 


条件码 



无效操作 
非规格化 
除以0 
上溢 
下溢 

精度损失 
堆栈出错 
中断请求 


图 9.4 FPU 浮点状态寄存器 ( x 86) 

测试 x 86 FPU 浮点数到整数的转换结果的 C 语言程序如下。我们使用了 union 
结构来实现对同一数据以不同方式的访问（以十六进制格式输人浮点数)。 


// f2i test for (x86 + Linux + gcc) 

#include<stdio.h> 

#define Chop 一 disable—exception \ 

asm volatile( n fldcw 一 RoundChop—disable—exception"> 
int 一 RoundChop—disable 一 exception = 0xlc3f; 

#define Read—fp 一 state 一 word \ 

asm volatile("fstsw —fp_state—word ”） 

int 一 fp 一 state—word; 

♦define Clear—exceptions—of_sw \ 
asm volatile("fclex") 


// 写 FPU 控制字 
// 屏蔽异常 

// 读 FPU 状态字 
// FPU 状态结果 

//清除状态寄存器 
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int main(void) { 
union { 

int intword; 
float floatword; 

} u; 
int d; 
while (1) { 

fprintf (stderr,"input a float number in hex format : ”）； 
f scanf (stdin, ” ％ x",&u • intword) ; // 读一个浮点数进来 
Chop—disable—exception; // 写 FPU 控 制字： 屏蔽异常 

Clear_exceptions_of_sw; // 清除状态寄存器所有异常位 

d = u. floatword; // 浮点数转换成整数 

fprintf (stderr, w f = %08X = %0.6f\n ff , 

u•intword, u.floatword); 

fprintf (stderr, n d = %08X = %08d\n", d, d) ; // 显示整数 
Read_fp.state_word; // 读 FPU 状态字并显示状态结果 

fprintf (stderr,"fp 一 state—word = %04X\n", 一 fp — state 一 word); 


我们可以用 gcc 对上述程序进行编译。程序的执行结果的例子如下所示。第一 
个输入数据是十进制的1.5,转换成整数后精度损失，所以状态寄存器的第5位设置 
为1。第二个数据是能转换的、不产生任何异常的最大正数。 

[yamin@localhost cpu] $ gcc f2i.c -o f2i 
[yamin@localhost cpu]$ f2i 

input a float number in hex format : 3fcOOOOO 
f = 3FC00000 = 1.500000 
d = 00000001 = 00000001 
fp 一 state 一 word = 0020 

input a float number in hex format : 4effffff 
f = 4EFFFFFF = 2147483520.000000 

d = 7FFFFF80 = 2147483520 # 

fp 一 state 一 word = 0000 

input a float number in hex format : 

[yamin@localhost cpu]$ 

9.2.2 整数转换成浮点数 

所有的整数都能转换成浮点数，不会出现“无效操作”的情况。但是，由于整数 
有32位，而单精度浮点数的尾数只有24位(算上隐藏位)，因此会出现精度损失的情 
况。我们以 d = 为例，说明整数到 

浮点数的转换方法。转换后的结果为 IEEE 754格式的单精度浮点数，用 a 表示。 

由于 d 是整数，可以假设有一个小数点在第0位（最右位）的右边。现在我们把 
小数点左移31位，即移到第31位与第30位之间。这相当于把 d 右移了 31位。为 
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了保持 d 的数值大小不变，我们应设它的阶码31，即 d = (d X 2- 31 ) X 2 31 ,其中 
括号部分是把小数点左移31位。然后我们再把该数值规格化，即把它左移，使其 
最高位为1。我们用 shifhamount 表示移位位数，用 fD 表示移位后的数据。该例中 

shift-amount = 3, fD = 1111111111111111111111111111 1000 2o 

为了保持数值大小不变，左移的位数 shift _ amount 要从阶码中减掉。因此 ， IEEE 
754格式中 a 的阶码 e a = 31 — shift_amount +127。即 e a = 158 — shifLamount 。 小 

数点左边的 1( 最高位）即为隐藏位，从小数点开始往右数出23位即得到尾数 f a 。 我 
们这里简单地把剩下的最右8位扔掉。如果被扔掉的8位不是全0,我们设输出信 
号 precision」ost = 1,意味着精度受损了。以下是该算法的 Verilog HDL 代码，注意 
shift _ amount 的产生方法。 

module i2f (d,a,precision 一 lost) ; 

input [31:0] d; // int range : -2^{31 } 細 +2"{31} - 1 
output [31:0] a; // float 
output precision 一 lost; 
wire sign = d[31]; // sign 
wire [31:0] f5 = sign? -d : d; 
wire [31:0] f4,f3,f2,f1,f0; 
wire [4:0] shift 一 amount; 

assign shift 一 amount[4] = _|f5[31:16]; 
assign f4 = shift—amount[4 】 ？ {f5[15:0] , 1bO} : 
assign shift—amount[3] = ~|f4 [31:24]; 
assign f3 = shift 一 amount[3]? {f4[23:0] f 8’bO} : 
assign shift 一 amount [2]= 」 f3 [31:28]; 
assign f2 = shift—amount[2]? {f3[27 :0], 4’bO} : 
assign shift 一 amount[1 】 =~|f2 [ 31:30]; 
assign f1 = shift_amount[1]? {f2[29:0] f 2 f bO} : 
assign shift—amount[0] = ~f1[31]; 
assign f0 = shift 一 amount[0]? {fl[30:0], 1’bO} : 
wire [22:0] fraction = f0 [30:8]; 
assign precision 一 lost = |f0[7:0]; 

wire [7:0] exponent = 8 f bl001_1110 - {3’hO,shift—amount}; 
assign a = (d == 0)? 0 : {sign,exponent,fraction}; 
endmodule 


// 16-bit 0 


f5 


f4 


f3 


f2 


fl 


// 8-bit 0 


// 4-bit 0 


// 2-bit 0 


// 1-bit 0 


32 位整数转换成单精度浮点数的 Verilog HDL 代码的仿真结果如图 9.5 所示。 


» a ( 00000001 X 7FFFFF80 \ 7FFFFFC0 \ 80000000^( 8000004(0( FFFFFFFF^ 00000000 ) 

Wb d ( 3F800000 X 4EFFFFFF X CF000000 X CEFFFFFO( BF800000^( 00000000 ) 

■O precision_k)st I I I I 


图 9.5 32 位整数转换成单精度浮点数仿真结果 
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9.3 浮点加法器 FADD 设计 

虽然叫浮点加法器，它其实也能做减法。本节首先讨论浮点加法算法，然后给 
出 Verilog HDL 源代码，最后描述流水线浮点加法器的设计方法。 

9.3.1 浮点加法算法 

我们首先通过一个具体的例子来讲述浮点加法算法。假设有以下两个 IEEE 754 
单精度浮点数 A 和 B ， 试计算 C = A + B 3 

A: 0 01111000 11000000000000000010001 (十六 进制： 3C600011) 

B: 1 01111101 00000100000000000000000 (十六进制： BE820000) 

这是两个规格化数，它们的隐藏位均为1。虽然我们要计算 A + B , 但从两个数 
的符号位看出， A 是正数而 B 是负数。因此我们要把它们的绝对值相减。谁减谁？ 
当然是大的绝对值减去小的绝对值。哪个绝对值大？比较一下它们的阶码就知道 B 
的绝对值大。注意这时还不能对尾数直接相减，因为两个数的阶码不同，它们的差 
值为 011111012 — 011110002 = 000001012 = 5i0o 

首先我们把绝对值小的阶码调整成与绝对值大的阶码相同的值，即把 A 的阶码 
加上5。为了保证 A 的绝对值大小不变，我们必须把 A 的尾数连同隐藏位一起向右 
移5位。为了保证计算精度 ， IEEE 754标准规定在计算时要在尾数的右端留出3位 
附加位。这3位附加位分别有自己的名字，从左至右为 G ( Guard)，R ( Round ) 和 S 
( Sticky ) o 我们用 GRS 称呼它们。绝对值大的数的 GRS 位为000。当我们右移绝对值 
小的尾数时，如果 R 位右边的所有位中有任何一位为1时，设置 S 为1。 

另外，考虑到尾数的运算结果可能是原来一个尾数的两倍，在最高位处还要再 
加1位。因此总的运算位数等于丨+ 1 + 23 + 3 = 28。以下是尾数的 计算： 

GRS 

01.00000100000000000000000 000 (B 的尾数） 

- 00.00001110000000000000000 101 (A 的尾数） 

00.11110101111111111111111 011 

为了得到用 IEEE 754单精度浮点数格式表示的结果，我们还必须把尾数相减 
的结果 （ 00.11110101111111111111111 011) 转换成 l . f 的格式 。 将它左移一 
位，变成 （ 01. 11101011111111111111110 110), 同时要从阶码中减去1,变成 
01111100,以保证结果大小不变。现在的问题是如何处理最右3位 GRS。IEEE 754 
定义了以下4种舍入方式。 

1) 就近 舍入： 如果 GRS > 100，在23位尾数的最右位加1;如果 GRS < 100, 

简单地把 GRS 扔掉； 如果 GRS =100,这时要看23位的尾数的最右位，当它 

为1时，要加1，为0时，扔掉 GRS ， 保证舍入后的尾数的最右位总是0。 

2) 向下 舍人： 向一 oo 方向舍人，即如果结果为负并且 GRS / 000,尾数加1。 


254 


第 9 章浮点算法及 FPU Verilog HDL 设计 


3) 向上 舍入： 向 + oo 方向舍入，即如果结果为正并且 GRS # 000,尾数加1。 

4) 向0 舍人： 最简单，扔掉 GRS 。 

绝大多数的 FPU 设置默认的舍入方式为就近舍入。如果我们也对上述计算结果 
进行就近舍人，则要在尾数 01.11101011111111111111110 的最右位加1，变成 

01.11101011111111111111111 。 现在我们终于得到了最后的用 IEEE 754 格式 

表示的 结果： 

C : 1 01111100 11101011111111111111111 (十六 进制： BE 75 FFFF ) 

那么如何在自己的 C 语言程序中选择舍入方式呢？如前所述，在 x 86 系列的 
FPU 中有一个16位的浮点控制寄存器，其中的第11和10两位定义了 FPU 操作时的 
舍人方式。以下是一段测试浮点加减法及舍人方式的 C 语言程序，运行在 Linux 操 
作系统下，由 gcc 编译。其中对浮点控制寄存器的写入由 x 86 汇编指令 fldcw 完成。 
数据的输入及输出均是十六进制数，程序内部完成对输入数据在不同的舍人方式下 
的浮点加减运算。 

// Rounding test for (x86 + Linux + gcc) 

#include<stdio.h> 

#define Near asm volatile("fldcw —RoundNear") 

#define Down asm volatile("fldcw 一 RoundDown") 

#define Up asm volatile("fldcw 一 RoundUp ”） 

#define Chop asm volatile("fldcw _RoundChop ”〉 
int _RoundNear = 0xl03f; // 舍入控制码 = 00 , 就近舍入 
int _RoundDown = 0xl43f; // 舍入控制码 = 01 , 向下舍入 
int __ RoundUp = 0xl83f ; // 舍入控制码 = 10 , 向上舍入 

int 一 RoundCh®p = 0xlc3f ; // 舍入控制码 = 11 ，向 0 舍入 

int main(void) { 
union { 

int intword; 
float floatword; 

} u, v, s, t; 
while (1) { 

fprintf (stderr,"input 1st fp number in hex format : "); 
fscanf (stdin,"%x",&u.intword); 

fprintf (stderr,"input 2nd fp number in hex format : ”）； 
fscanf (stdin,"%x",&v.intword); 

Near; // 就近舍入 

s. floatword = u.floatword + v.floatword; 

t. floatword = u.floatword - v.floatword; 

fprintf (stderr, ” the sum of 2 fp numbers is (near) : " 

,l %08X\t%08X\n fl f s . intword, t. intword); 

Down; // 向下舍入 

s. floatword = u.floatword + v.floatword; 

t. floatword = u.floatword - v.floatword; 
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fprintf (stderr,"the sum of 2 fp numbers is (down) : 

"%08X\t%08X\n",s•intword,t.intword); 

Up; // 向上舍入 

s. floatword = u.floatword + v.floatword; 

t. floatword = u.floatword - v.floatword; 

fprintf (stderr, "the sum of 2 fp numbers is ( up ): 

"%08X\t%08X\n",s•intword, t.intword); 

Chop; // 向 0 舍入 

s. floatword = u.floatword + v.floatword; 

t. floatword = u.floatword - v.floatword; 

fprintf (stderr,"the sum of 2 fp numbers is (chop) : 

f, %08X\t%08X\n w # s . intword, t • intword); 


编译命令及运行结果如下所示。输出的第一个十六进制数是相加的结果，第二 
个数是相减的结果。你看，舍入方式不同，结果也不同。这个程序可以被用来验证 
我们设计的浮点加法器是否正确（假设 x 86 FPU 的输出结果是正确的)。 


[yamin@localhost cpu] $ gcc fadd 一 test.c -o fadd 一 test 


[yamin@localhost cpu]$ fadd—test 
input 1st fp number in hex format : 
input 2nd fp number in hex format : 
the sum of 2 fp numbers is (near) : 
the sum of 2 fp numbers is (down) : 


the sum of 2 fp numbers is 


up ) : 


the sum of 2 fp numbers is (chop) : 
input 1st fp number in hex format : 
[yamin@localhost cpu]$ 


3C600011 

BE820000 

BE75FFFF 

BE75FFFF 

BE75FFFE 

BE75FFFE 


3E890001 

3E890000 

3E890001 

3E890000 


9.3.2 浮点加法器 Verilog HDL 代码 


浮点加法器的总体结构如图 9.6 所示，由三部分 组成： 阶码对齐，计算和规格 
化。以下我们描述如何用 Verilog HDL 来设计浮点加法器。模块名为 fadder ， 输入信 
号 a 和 b 是两个单精度浮点数，输入信号 sub 为1时 a — b , 为0时 a + b , rm 是两 
位舍入控制码，输出信号 s 是单精度浮点结果。 

module fadder (a,b,sub,rm,s) ; 

input [31:0] a,b; // fp inputs a and b 
input sub; // 1: sub; 0: add 

input [1:0] rm; // round mode 

output [31:0] s; // fp output • 

由于实际的操作为减法时，要从大的绝对值中减去小的绝对值，因此我们要 
区分出 a 和 b 哪个绝对值大。绝对值大的浮点数用 fpJarge 来表示，绝对值小的用 
f ^)_ smal 1 表示。 S 卩，如果 b 的绝对值大于 a 的绝对值， a 和 b 两个数要交换位置。 
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exchance 


shift amount 
op-sub 
temp_exp 

isJnfjian 
sign 



阶码对齐 


计算 


规格化 





b 


a 


sub 


图 9.6 浮点加法器电路的总体模块图 

wire exchange = ({ 1’ bO,b[30 : 0]} > {1 f bO,a[30 : 0]}); 
wire [31:0] fp 一 large = exchange? b : a; 
wire [31:0] fp_small = exchange? a : b; 

以下两行确定两个浮点数的隐藏位。如果阶码部分为0,该浮点数或者为0或者 
为非规格化数 3 这两种情况中的隐藏位均为0。如果是规格化数，阶码部分非0。因 
此各位相或的结果就是它的隐藏位。 

wire fp—large 一 hidden 一 bit = | fp_large[30:23] ; 
wire fp— 手 ma11—hidden 一 bit = Ifp_small[30:23]; 

由此，我们可以得到加入了隐藏位的两个尾数 large _ frac 24 和 sman _ fr aC 24。 每个 
都有24 位： 1位隐藏位和浮点数格式中的23位尾数。结果的阶码暂时定为与绝对 
值大的阶码相同的值，在对结果规格化时，我们还要调整它。现在考虑结果符号位 
sign 。 如果 a 和 b 两个数没有交换位置，即 a 的绝对值大，计算结果的符号与 a 相 
同。如果交换了，即 b 的绝对值大。这时，如果是 a + b ， 则计算结果的符号与 b 相 
同；如果是 a — b , 则计算结果的符号与 b 相反。真正的操作 op _ sub 取决于 a 和 b 的 
符号位及 sub 。 如果 a 和 b 的符号相反并且 sub 为0,则 相减； 如果 a 和 b 的符号相 
同并且 sub 为1，也 相减； 其他情况皆相加。 

wire [23:0] large 一 frac24 = {fp 一 large 一 hidden—bit,fp 一 large[22 :0】 } ; 

wire [23:0] small 一 frac24 = {fp_small — hidden 一 bit,fp—small[22: 0】 }; 

wire [7:0 】 temp 一 exp = fp 一 large[30:23]; 

wire sign = exchange? sub 八 b[31] : a[31]; 

wire op 一 sub = sub 一 fp—large[31 】 " fp—small[31]; 



o SJUed u—Juf 
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以下的代码确定两个浮点数是否为无穷大 （ inf ) 或者 NaN ( nan )。 如果阶码为全1 
并且尾数为0,则该浮点数为无 穷大； 如果阶码为全1但尾数不为0,则该浮点数为 
NaN 。 信号 is _ inf _ nan 为1时，表示最后结果为无穷大或者 NaN 。 

wire fp—large—expo—is 一 ff■ = &fp 一 large[30:23]; // exp == Oxff 
wire fp—small 一 expo_is__ff = & fp_small[30:23]; 

wire fp—large 一 f rac 一 is 一 00 = | fp 一 large [22 : 0] ; // frac == 0x0 

wire fp_small 一 f rac_is_00 = ~ | fp_small [22 : 0]; 

wire fp 」 arge—is — inf = fp — large_expo_is_ff& fp_large — frac_is_00; 
wire fp 一 small—is 一 inf = fp_small_expo — is_ff& fp — small 一 frac—is 一 00; 
wire fp_large — is_nan = fp_large_expo_is_ff& ~fp 一 large 一 frac 一 is 一 00; 
wire fp_small_is_nan = fp_small — expo — is_ff& ~ fp_sma11_f rac_is_00; 
wire is_inf_nan = fp—large—is 一 inf | fp 一 small 一 is 一 inf | 

fp 一 large 一 is 一 nan | fp_small_is_nan; 

只要有一个数为 NaN ， 结果是 NaN ; 两个数都不是 NaN ， 结果也可能是 NaN 。 
表 9.2 给出了两个无穷大数的操作结果。 

表 9.2 两个无穷大数的操作结果 


sub 

fpJarge 

巾 —small 

s 

注释 

0 

+oo 

+oo 

+OC 

(+oo) + (+oo) 

0 

—oo 

—oo 

— oo 

(—oc) + (—oo) 

1 

+oo 

—oo 

+oo 

(+oc) - (-oo) 

1 

—oc 

+OC 

— oc 

(-oo) — (+oo) 

0 

+oo 

—oo 

NaN 

(+oo) + (-oc) 

0 

—oo 

+oo 

NaN 

(-oo) + (+OC) 

1 

+ OC 

+ OC 

NaN 

(+oo) — (+oo) 

1 

— oc 

—oo 

NaN 

(—oc) — (—oo) 


当两个数都不是 NaN , 检査表 9.2 中输出为 NaN 的条件。如果满足，设置结果 
为 NaN 。 否则，结果是无穷大。因为结果不管是无穷大还是 NaN ， 它们的阶码都是 
全丨，所以我们只设置尾数部分 ( inf _ na n _ frac )。 当结果为 NaN 时，尾数部分选择 a 和 
b 中较大的那个尾数。 

wire s—is 一 nan = fp 」 arge 一 is 一 nan | fp—small 一 is—nan | 

((sub " fp 一 small[31] " fp 一 large[31 】 ）& 
fp 一 large 一 is 一 inf & fp—small—is 一 inf); 
wire [22:0] nan_frac = ({1’ bO, a [22:0]} > {1’ bO,b [22:0]}) ? 

{l ， bl,a[21:0】} : {l ， bl,b[21:0]}; 
wire [22:0] inf 一 nan 一 frac = s—is—nan? nan 一 frac : 23 f hO; 


以下的代码对 smalLfrac 24 右移并计算尾数结果。如果两个数都是规格化数， 
右移位数 shifLamount 等于两个数阶码的差值 exp . diffo 如果 fpJarge 是规格化数而 
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f ^ small 是非规格化数，则右移位数等于 exp _ diff — 1。这是因为规格化数的绝对值等 
于 2 e _ 127 x l . f ， 而非规格化数的绝对值等于 2 G - 126 X 0上图 9.7 说明当右移位数大 
约26时，只要右移26位即可。在做计算时，要在最左边多加一位，因为尾数相加 
的结果可能大于或等于2。 . 




23 位 

八 


4 

/ - 


\ 

□1 

ILL 

• •參 

ML 


3位 


23位 


B 

nn 

_/\_ 

■■ 

B 

1 / 

、 


• II 

1 … III! 


阁 9.7 最多把 small . frac 24 右移26位 


wire [7:0J exp_dif f = fp」arge [ 30 : 23 】 - fp_small [30:23]; 
wire small—den 一 only = (fp—large[30:23] != 0) & (fp_small[30:23] == 0); 

wire [7:0] shift 一 amount = small_den_only? exp__diff 一 8'hl : exp__diff; 
wire [49:0] small 一 frac50 = (shift—amount >= 26)? 

{26 f hO,small—frac24} : 


wire 

wire 

wire 

wire 


{small 一 frac24,26 f hO} >> shift—amount; 

[26:0] small—frac27 = {small—frac50[49:24],|small_frac50[23:0]}; 
[27:0] aligned—large_frac = {bO,large—frac24,3^ bOOO}; 

[27:0] aligned—small—frac = {1'bO,small 一 frac27}; 

[27:0] cal 一 frac = op_sub? 

aligned_large_frac - aligned 一 small—frac : 
aligned 一 large 一 frac + aligned—small—frac; 


现在开始对计算出的尾数 caLfrac 规格化。我们对以下两种情况分别加以 考虑： 
一 种是 caLfrac = lx . xxx …； 另 一 种是 caLfrac = Ox.xxx …。 第一种情况比较简单， 
只要把 caLfrac 右移一位，再把阶码加1。第二种情况比较复杂，要从左边开始找 
出第一个1所在的位置，或者数出第一个1的左边有多少个0 (不包括 caLfrac 最左 
边的0)。例如，如果 cal_frac = 00.00 lxxxxxxxxxxxxxxxxxxxx xxx , 0的个数为3 ( 代 

码中的 zeros )。 gp , 要把 caLfrac 左移3位，然后从阶码中减去3。阶码有可能小于 
zeros , 这时要把结果设置成非规格化数。 


wire [26:0] f4,f3,f2,f 1, f0; 
wire [4:0] zeros; 


assign 

assign 

assign 

assign 

assign 

assign 

assign 

assign 

assign 

assign 


zeros[4] 




_I cal—frac[26:11]; 


f4 




zeros[4]? {cal_frac[10:0] f 16’b0} 


zeros[3 ] 




If4[26:19]; 


f3 




zeros[3]? {f4 [18:0] f 8 f b0} : f4; 


zeros[2] 




|f3[26:23]; 


f2 




zeros[2]? {f3[22:0], b0} : f3; 


[ 1 ] 


fl 


zeros[0] 




^If2[26:25]; 

[1]? {f2[24:0] f 2 f b0} : f2; 
~fl[26 】 ； 


fO 




zeros[0]? {fl[25:0], l f b0} : fl; 


II 16-bit 0 
: cal 一 frac[26: 0 】 ； 
// 8-bit 0 

// 4-bit 0 

// 2-bit 0 

// 1-bit 0 
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reg [7:0] expO; 

reg [26:0 】 fracO; 

always @ * begin 

if (cal 一 frac[27 】 ）begin 

fracO = cal_frac[27:1]; // lx•xxxxxxxxxxxxxxxxxxxxxxx xxx 

expO = temp 一 exp + 8 f h1; 
end else begin 

if ((temp 一 exp > zeros) && (f0[26])) begin 

expO = temp_exp 一 zeros; // 01•xxxxxxxxxxxxxxxxxxxxxxx xxx 
fracO = f0; 
end else begin 

expO = 0; // is a denormalized number or 0 

if (temp 一 exp != 0) // (e 一 127) = ((e - 1) — 126) 

fracO = cal — frac[26:0] << (temp_exp 一 8'hl); 
else fracO = cal_frac[26:0]; 

end 

end 

end 

注意， expO 可能变成全 1, 我们将在下面讨论它。表 9.3 列出了舍入时尾数必须 
加1的所有情况， frac 0[2:0] 就是 GRS 。 如果 frac _ plus _ l 为1，尾数加1。 

表 9.3 舍入操作 


rm [ l :0] 

frac 0[3:0] 

sign 

frac - plus -1 

注释 

0 0 

110 0 

X 

1 

就近舍入 

0 0 

x 1 非00 

X 

1 

就近舍入 

* 0 1 

x 非000 

1 

1 

向下舍入 

10 

x 非000 

0 

1 

向上舍入 


wire frac_plus 一 1 = 

•rm[l] & ^ rm[ 0 ] & frac0[2] & (frac0[l] I fracO[0]) | 

'rm [1] & ~rm [ 0 ] & fracO[2] & "fracO (1] & racO[0] & fracO [3] I 

~rm[1] & rm[0] & (fracO[2] | fracO[1] I fracO[0]) & sign | 

rm[ 1] & ' rm [ 0 ] & (fracO[2] I fracO( 1 ] I fracO[0]) & 一 sign; 

wire [24:0] frac 一 round = {1/bO, fracO [26: 3】 } + frac 一 plus—1; 

如果加 1 之前的尾数为全1，加1之后 frac_round 等于2，如下所示。这时还要 
把阶码加1，尾数右移一位。 

0 1.1 1111111111111111111111 
+ 0 0,0 0000000000000000000001 
1CK0 0000000000000000000000 

阶码调整后可能变为全1，还有前面讲过的 expo 也可能变为全1 。 IEEE 754称 
其为上溢 。 IEEE 754对上溢的处理规定如下。 
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1) 就近舍入时把上溢结果置成无穷大。 

2) 向0舍入时把上溢结果置成最大的规格化数。 

3) 向下舍入时把负数的上溢结果置成无 穷大； 把正数的上溢结果置成绝对值最大 
的正规格化数。 

4) 向上舍人时把正数的上溢结果 置成无穷大； 把负数的上溢结果置成绝对值最大 
的负规格化数。 

举例如下。计算 C = A + B 。 

A = 0 11111110 11111111111111111111111 
B = 0 11111011 11111111111111111111111 

01. 11111111111111111111111 000 
+ 0 0.0 0111111111111111111111 111 
^~~ 10. 0 0111111111111111111110 111 

0 1.0 0011111111111111111111 011 

尾数右移一位，阶码加1，变为全1。这时尾数没有用了，结果 C 有两种 可能： 

C = 0 11111111 00000000000000000000000 (就近或向上舍入） 

C = 0 11111110 11111111111111111111111 (向0或向下舍入） 

我们使用 fuction 实现对上溢的处理，其中的 casex 语句允许使用任意值 “ x ” 。 

wire [7:0] exponent = frac 一 round[24] ? expO + 8'hl : expO; 
wire overflow = &exp0 | Sexponent; • 

wire [7:0] final 一 exponent; 
wire [22:0] final 一 fraction; 

assign {final 一 exponent,final 一 fraction} = final 一 result(overflow, rm, 

sign, is 一 inf—nan, exponent, frac 一 round[22:0], inf 一 nan 一 frac); 
assign s = {sign,final_exponent f final_fraction}; 

function [30:0] final—result; 
input overflow; 

input [1:0] rm; 
input sign, is 一 inf 一 nan; 

input [7:0] exponent; 
input [22:0] fraction, inf 一 nan—frac; 
casex ({overflow, rm, sign, is 一 inf 一 nan}) 

5 ， bl—00—x_x : final 一 result = {8 f hff, 23, h000000}; // inf 

5’bl_01 — 0_x : final 一 result = {8’hfe,23’h7fffff}; // max 

5 f bl_01_l_x : final—result = {hff,23’hOOOOOO}; // inf 

5'bl—lO—0_x : final 一 result = {8 f hff f 23 # hOOOOOO}; // inf 

5 ， bl_10_l_x : final.result = { 8, hfe,23'h7fffff}; // max 

5’bl—11—x__x : final_result = { 8 f hfe f 23 f h7f f f f f}; // max 

5’b0_xx — x—0 : final 一 result = {exponent,fraction}; // normal 
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5 ， b0_xx—x—l: final—result = { 8 # hff , inf_nan_frac}; // inf.nan 
default : final—result = {8'hOO,23 f hOOOOOO}; // 0 

endcase 
endfunction 
endmodule 

整个代码到此结束。以下给出几个仿真结果，以验证上述代码的正确性。图 9.8 
示出的是本节开始提到的两个规格化数的加减操作。从图中我们可以看出舍人方式 
对结果尾数的影响。 
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图 9.8 浮点加法器仿真 结果: 舍入控制对尾数的影响 

选择不同的舍入方式不但对结果尾数有影响，对阶码也有影响，见图9.9。加法 
结果依舍入方式的不同，有40000000和 3 FFFFFFF 两种结果，它们的阶码不同。 
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图 9.9 浮点加法器仿真结果:舍入控制对阶码的影响 

图 9.10 给出了在就近舍人方式下 8 种特殊的计算。第 1 个是正无穷大加正无 
穷大，结果为无穷大。第 2 个是正无穷大减正无穷大，结果为 NaN 。 第 3 个是规格 
化数加 NaN, 结果为 NaN 。 第 4 个是两个绝对值最大的规格化数相加，结果为无穷 
大。第 5 个是规格化数加 0 。 第 6 个是绝对值最小的规格化数加上绝对值最大的非规 
格化数。最后两个是两个非规格化数的加减。 
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阁 9.10 浮点加法器仿真结果: 8种特殊的计算 
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9.3.3 流水线浮点加法器设计 

流水线浮点加法器每个周期都可以接收一条浮点加法或减法指令，总体结构见 
图 9.11 。 为了叙述简便，我们把所有的计算分为 3 级： 阶码对齐级，计算级和规格 
化级。注意在实际的 FPU 设计中，流水线分级的规则是使每一级的操作花费大致相 
同的时间。相邻两级之间需要加入流水线寄存器。图中的信号名称有如下 规则： 阶 
码对齐级的信号都加头文字 a ， 计算级的信号都加 c , 规格化级的信号都加 II 。 



阶码对齐 计算 规格化 


图 9.11 流水线浮点加法器总体结构图 

以下是流水线浮点加法器的最顶层代码。它只是给出各模块之间的信号连接关 
系。总共有 5 个模块，它们分别是： （ 1) fadcLalign (阶码对齐模块)； (2) reg_align_cal 
(阶码对齐级与计算级之间的寄存器模块)； （ 3) fadd.cal (计算模块)； （ 4) reg_cal_norm 
(计算级与规格化级之间的寄存器模块)； （ 5) fadcLnorm (规格化模块)。全部模块的详 
细代码在下面给出。 


module pipelined_fadder (a,b,sub,rm,s,clock,clrn,e); 
input 【 31:0] a,b; // fp inputs a and b 
input sub; // 1: sub; 0: add 

input e; // enable 

input [1:0] rm; // round mode 

input clock,clrn; 

output [31:0] s; // fp output 
//alignment stage : 
wire 【 1:0] a_rm; 

wire a_i s_i n f 一 n an; 

wire [22:0] a 一 inf 一 nan 一 frac; 

wire assign; 


wire [7:0] 
wire 

wire [23:0] 
wire [26:0] 
fadd 一 align 


a_exp; 
a 一 op — sub; 
a 一 large—frac; 
a 一 sma11 一 f rac; 

alignment (a, b, sub, a 一 is 一 inf—nan, a 一 inf 一 nan 一 f rac, a—sign. 
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a 一 exp, a 一 op—sub, a—large_frac ， a 一 small 一 f rac}; 

// pipelined registers between alignment and calculation: 

wire [1:0 】 c_rm; 

wire c 一 is_inf — nan; 

wire [22:0] c—inf—nan—frac; 

wire c—sign; 

wire [7:0] c 一 exp; 

wire c 一 op 一 sub; 

wire [23:0] c_large_frac; 

wire [26:0] c 一 small 一 frac; 

reg 一 align 一 cal reg—ac (rm, a—is 一 inf 一 nan, a 一 inf—nan_frac, a 一 sign, a—exp, 

op 一 sub,a 一 large 一 frac,a 一 small—frac,clock,clrn, 
e, c 一 rm, c 一 is 一 inf 一 nan, c 一 inf 一 nan 一 f rac, c 一 sign, 
c—exp, c 一 op—sub, c—large 一 f rac, c 一 small 一 frac); 

// calculation stage : 
wire [27:0 】 c—frac; 

faded—cal calculation <c 一 op 一 sub, c 一 large 一 frac, c 一 small 一 frac, c_frac); 

// pipelined registers between calculation and normalization : 

wire [1:0] n—rm; 

wire n is inf nan; 

wire [22:0] n 一 inf—nan—frac; 

wire resign; 

wire [7:0] n 一 exp; 

wire [27:0 】 n 一 frac; 

reg 一 cal—norm reg 一 cn (c 一 rm,c 一 is 一 inf 一 nan,c 一 inf 一 nan 一 frac,c—sign,c_exp, 

c 一 frac,clock,clrn,e, n—rm,n 一 is 一 inf—nan, 
n 一 inf 一 nan 一 frac,n_sign,n 一 exp, n 一 frac); 

// normalization stage : 

fadd norm normalization (n rm,n is inf nan,n inf nan frac. 


endmodule 


n_sign, n—exp, n 一 f rac, s); 


以下是阶码对齐级的代码。它与 9.3.2 小节描述的浮点加法器中的代码类似，只 
是此处代码中的输出信号可能是 9.3.2 小节代码中的内部信号。如果是这种情况，我 
们把原来的表示内部信号的关键字 wire 改成了关键字 assign 。 

module fadd 一 align 
(a, b, sub, 

is 一 inf 一 nan,inf 一 nan 一 frac,sign,temp 一 exp,op 一 sub,large—frac24,small—frac27); 
input [31:0] a, b; 
input sub; 

output is 一 inf 一 nan; 

output 【 22:0] inf—nan 一 frac; 
output sign; 

output [7:0] temp—exp; 
output op—sub; 

output [23:0] large 一 frac24; 
output [26:0] small 一 frac27; 
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wire exchange = ({b0 # b[30 : 0]} > {1 / b0 # a[30 : 0]}); 

wire [31:0] fp_large = exchange? b : a; 

wire [31:0] fp 一 small = exchange? a : b; 

wire fp_large_hidden_bit = |fp_large[30:23]; 

wire fp—small 一 hidden 一 bit = |fp 一 small[30:23]; 

wire [23:0] large 一 frac24 = { fp 」 arge 一 hidden 一 bit, fp 一 large [22 : 0] }; 

wire [23:0] small_frac24 = {fp—small_hidden 一 bit,fp—small[22:0]}; 

assign temp 一 exp = fp_large[30:23]; 

assign sign = exchange? sub " b 【 31] : a[31]; 

assign op 一 sub = sub " fp_large[31] 一 fp 一 small[31 】 ； 

wire fp 」 arge — expo—is 一 f f = &fp 一 large [ 30:23] ; // exp == Oxff 

wire fp_small_expo — is_ff = &fp 一 small[30:23]; 

wire fp—large_frac_is—00 = ~Ifp — large[22: 0 】 ； // frac == 0x0 

wire fp_small — frac_is_00 = _Ifp 一 small[22:0]; 

wire fp 」 arge_is_inf = fp 」 arge — expo_is_ff & fp 」 arge 」 rac — is_00; 

wire fp—small—is 一 inf = fp_sma 1 l_expo_is_ff & fp—small 一 frac 一 is 一 00; 

wire fp 」 arge—is — nan = fp 一 large 一 expo—is 一 f f & ~ fp 一 large—frac—is 一 00; 

wire fp—small_is—nan = fp_small_expo_is_ff & ~fp 一 small 一 frac 一 is 一 00; 

assign is 一 inf 一 nan = fp 」 arge_is — inf | fp_small_is_inf | 

fp_large—is 一 nan | fp — small—is 一 nan; 
wire s 一 is 一 nan = fp 一 large_is_nan | fp 一 small 一 is 一 nan | 

((sub " fp_small[31] " fp 一 large 【 31]) & 
fp_large_is — inf & fp — small 一 is—inf); 
wire [22:0] nan 一 frac = ({ 1 ， bO, a 【22 •• 0] } > { 1 ， bO, b [22 : 0】 }) ? 

{l r bl,a[21:0]} : {l ， bl,b[21:0】}; 
assign inf—nan 一 frac = s 一 is—nan? nan 一 frac : 23 f hO; 

wire [7:0 】 exp_diff = fp 一 large 【 30 : 23 】一 fp_small[30:23]; 
wire small_den_only = (fp.large[30:23] != 0) & (fp_small 【 30:23】 == 0); 
wire [7:0] shift—amount = small 一 den 一 only? exp 一 diff - 8 f hi : exp 一 diff; 
wire [49:0] small 一 frac50 = (shiftyamount >= 26)? 

{26 〃 hO,small_frac24} : 

{small 一 frac24,26 f hO} >> shift 一 amount; 
assign small 一 frac27 = {small_frac50(49:24] # |small_frac50[23:0]}; 

endmodule 

以下是阶码对齐级与计算级之间的寄存器模块的代码。 

module reg 一 align 一 cal (a 一 rm, a—is 一 inf 一 nan, a 一 inf 一 nan 一 frac, a 一 sign, a 一 exp, 

a 一 op 一 sub, a 一 large 一 frac, a—small 一 frac, clock, clrn, 
e, c 一 rm, c 一 is—inf 一 nan, c 一 inf 一 nan 一 frac, c 一 sign, 
c—exp, c 一 op—sub, c—large 一 frac, c 一 small 一 frac); 
input e; // enable 

input [1:0] a_rm; 
input a—is—inf 一 nan; 

input [22:0] a 一 inf 一 nan 一 frac; 

input a 一 sign; 

input [7:0] a 一 exp; 

input a 一 op 一 sub; 
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input [23:0] a 一 large 一 frac; 
input [26:0] a — small 一 frac; 
input clock,clrn; 

output [1:0] c_rm; 
output c 一 is 一 inf—nan; 

output [22:0] c—inf 一 nan 一 frac; 
output c 一 sign; 

output [7:0] c 一 exp; 
output c_op 一 sub; 

output [23:0] c—large 一 frac; 
output [26:0] c_small—frac; 
reg [1:0] c_rm; 

reg c—is 一 inf 一 nan; 

reg [22:0] c 一 inf — nan—frac; 
reg c — sign; 

reg [7:0] c—exp; 

reg c 一 op — sub; 

reg [23:0] c 一 large 一 frac; 
reg [26:0] c 一 small 一 frac; 

always @ (posedge clock or negedge clrn) begin 

if (clrn == 0) begin 

c_rm <= 0; 

c 一 is 一 inf — nan <= 0; 
c_inf—nan_frac <= 0; 

<= 0; • 

<= 0; 

<= 0 ; 

<= 0; 

<= 0; 

end else if (e) begin 

c rm <= a rm; 

c 一 is—inf 一 nan <= a 一 is—inf 一 nan; 

c inf nan frac <= a inf nan frac; 
c_sign <= a 一 sign; 

<=a 一 exp; 

<=a_op 一 sub; 

<=a—large 一 frac; 

<=a 一 small—frac; 

end 

end 

endmodule 

计算级模块的代码如下。我们在本模块中加入了加法器两个输入的最高位0以 
及绝对值大的尾数右边的 GRS 位。这样可以节省5个 D 触发器，因为它们的值永远 
为0。同样，我们用 assign 指定 cal_frac 的输出值。 


c_exp 
c 一 op— sub 
c_large 一 frac 
c small frac 


c_sign 
c 一 exp 
c 一 op 一 sub 
c 一 large 一 frac 
c small frac 
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module fadd_cal (op_sub,large 一 frac24 , small 一 frac27 ， cal 一 frac); 

input op 一 sub; 

input [23:0] large_frac24; 
input [26:0] small 一 frac27; 
output [27:0] cal 一 frac; 

wire [27:0] aligned 一 large 一 frac = {b0 # large_frac24 # 3 f bOOO}; 

wire [27:0] aligned 一 small 一 frac = {1'bO,small—frac27}; 

assign cal 一 frac = op_sub? 

aligned 一 large—frac - aligned 一 small 一 frac : 
aligned 一 large 一 frac + aligned 一 small 一 frac; 

endmodule 

以下的代码描述计算级与规格化级之间的寄存器模块。 

module reg — cal 一 norm 

(c 一 rm,c—is 一 inf 一 nan,c 一 inf 一 nan 一 frac,c 一 sign,c — exp,c 一 frac,clock,clrn, 
e, n 一 rm, n 一 is 一 inf 一 nan, n 一 inf 一 nan 一 frac, n_sign, n 一 exp, n__frac) ; 
input e; // enable 

input [1:0] c_rm; 
input c_is_inf_nan; 

input [22:0] inf 一 nan—frac; 

input c 一 sign; 

input [7:0] c 一 exp; 
input [27:0] c 一 frac; 
input clock,clrn; 

output [1:0] n_rm; 
output n 一 is 一 inf 一 nan; 

output [22:0] n_inf — nan 一 frac; 
output n 一 sign; 

output [7:0] n—exp; 
output [27:0] n 一 frac; 
reg [1:0] n_rm; 

reg n—is 一 inf 一 nan; 

reg [22:0] n 一 inf 一 nan_frac; 

reg n 一 sign; 

reg [7:0] n 一 exp; 

reg [27:0] n 一 frac; 

always @ (posedge clock or negedge clrn) begin 

if (clrn == 0) begin 

n—rm <= 0; 

n_is 一 inf 一 nan <= 0; 
n 一 inf 一 nan 一 frac <= 0; 
n 一 sign <= 0; 

n 一 exp <= 0; 

n 一 frac <= 0; 

end else if (e) begin 
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n 一 rm <= 

n_is 一 inf 一 nan <= 

n 一 inf 一 nan 一 frac <= 

n 一 sign <= 

n—exp <= 

n frac <= 


c_rm; 

c is inf nan; 
c inf nan frac; 

W 

c 一 sign; 



c_frac; 


end 


end 


endmodule 


最后一个模块完成规格化操作。它也是与第一节所给出的代码类似。其中信号 S 
为流水线浮点加法器的最终输岀。 


module fadd 一 norm (rm,is 一 inf 一 nan,inf—nan 一 frac,sign,temp—exp,cal 一 frac,s) 
input [1:0 】 rm; • 


input 


is inf nan 


input [22:0] inf 一 nan 一 frac 


input 


sign; 


input [7:0] temp—exp; 
input [27:0] cal 一 frac; 
output [31:0] s; 
wire [26:0] 
wire [4:0] 


f4 # f3, f2,fl,fO; 


zeros; 


assign 

zeros 

[4]= 

• |cal—frac[26:ll]; 



// 

16-bit 

0 

assign 

f4 = 

zeros 

[4]? {cal—frac[10:0], 

16, 

b0} 

: 

cal 一 frac[ 

assign 

zeros 

[3]= 

•|f4[26:19]; 




// 

8-bit 

0 

assign 

f3 = 

zeros 

[3]? {f4[18:0]. 

8 ， b0} 

参 

參 

f4; 




assign 

zeros 

[2]= 

-|f3[26:23]; 




// 

4-bit 

0 

assign 

f2 = 

zeros 

[2]? {f3[22:0] f 

4 ， b0} 

參 

• 

f3 ； 




assign 

zeros 

[1]= 

"If2[26:25]; 




// 

2-bit 

0 

assign 

fl = 

zeros 

[1]? {f2[24:0]. 

2 # b0} 

參 

参 

f2; 




assign 

zeros 

[0]= 

. 

•fl[26]; 




// 

1-bit 

0 

assign 

fO = 

zeros 

[0]? {fl[25:0] f 

l f b0} 

• 

• 

fl ； 





reg [7:0] 
reg [26:0] 


expO; 
fracO; 


always @ * begin 

if (cal 一 frac [27]) begin 


f racO 
expO 


cal_frac[27:1 】； 
temp—exp + 8 # hi; 


// lx.xxxxxxxxxxxxxxxxxxxxxxx xxx 


end else begin 

if ((temp 一 exp > zeros) && (f0[26])) begin 

expO = temp 一 exp - zeros; // 01.xxxxxxxxxxxxxxxxxxxxxxx xxx 
fracO = f0; 
end else begin 

expO = 0; // is a denormalized number or 0 

if (temp 一 exp != 0) // (e - 127) = ((e - 1) - 126) 

fracO = cal 一 frac[26: 0 】 << (temp—exp - 8'hl); 
else fracO = cal—frac[26:0]; 
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end 

end 

end 

wire frac_plus 一 1 = 

•rm[l] St •rm[0J & fracO [2] & (fracO [ 1 ] | fracO [0]) | 

一 rm[l] & ~rm[0] & fracO[2] & 'fracO[1] & 'fracO[0] & fracO(3] | 

一 rm[l] & rm[0] & (fracO[2] | fracO[1] I fracO[0]) & sign I 

rm[1] & ^rm[0] & (frac0(2) | fracO[l) I frac0[0]) & "sign; 

wire 【 24:0] frac—round = {1'bO,fracO[26:3]} + frac_plus 一 1; 
wire [7:0] exponent = frac 一 round 【 24 ]? expO + 8’hl : expO; 
wire overflow = &expO | ^exponent; . 

wire [7:0] final 一 exponent; 
wire [22:0] final 一 fraction; 

assign {final 一 exponent,final 一 fraction} = final—result(overflow, rm, 

sign, is—inf 一 nan, exponent, frac 一 round[22:0], inf—nan 一 frac" 
assign s = {sign,final—exponent,final 一 fraction}; 
function [30:0] final_result; 
input overflow; 

# 

input [1:0] rm; 

input sign, is 一 inf 一 nan; 

input [7:0] exponent; 

input 【 22:0] fraction, inf 一 nan—frac; 

casex ({overflow, rm, sign, is_inf_nan}) 

5 ， bl 一 00 一 x—x : final—result = {8 f hff f 23 # hOOOOOO}; // inf 

5’bl — 01 一 x : final 一 result = {8’hfe,23’h7fffff}; // max 

5 f bl_01_l_x : final-result = { 8, hff, 23, hOOOOOO}; // inf 

5’bl 」 0_0 — x : final 一 result = { 8’hf f, 23 f hOOOOOO}; // inf 

5'bl_10—l_x : final 一 result = {8’hfe, 23’h7fffff}; // max 

5'bl 一 ll_x_x : final 一 result = {8'hfe,23'h7fffff}; // max 

5'bO—xx 一 x 一 0 : final 一 result = {exponent,fraction}; // normal 

5’b0_xx_x 」 : final—result * {8’hff,inf—nan_frac}; // inf 一 nan 
default : final 一 result = { 8, hOO, 23, hOOOOOO}; // 0 

endcase 
endfunction 
endmodule 


图 9.12 给出了流水线浮点加法器的仿真结果。图中左上的数字1, 2和3表示浮 
点数 3 C600011 减 BE820000 时的流水线级数。在第3级出来结果，即 3E890001。 



图 9.12 流水线浮点加法器仿真结果 
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我们将在第10章使用这个流水线浮点加法器来设计一个带有 FPU 的流水线 
CPU 。 此处的3级流水线全部属于 CPU 的执行级。它们的前面是取指令级 IF 和指令 
译码级 ID ， 它们的后面是结果写回级 WB 。 B 卩，这样的 CPU 执行一条浮点加减法指 
令时将花费6个时钟周期 ( Latency ), 但每个时钟周期 CPU 可以接收一条浮点加法或 
减法指令 ( Throughput ) 0 

9.4 浮点乘法器 FMUL 设计 

本节首先讨论浮点乘法算法，然后给出用 Wallace 树型乘法算法设计的浮点乘法 
器的 Verilog HDL 源代码，最后描述流水线浮点乘法器的设计方法。 

9 . 4.1 浮点乘法算法 

因为没有阶码对齐的问题，浮点乘法算法比浮点加法算法要简单一些。首先考 
虑两个规格化浮点数相乘。设3 = { s a ， e a ， f a }，b = { s b , e b , f b } 为两个 IEEE 754单 
精度浮点数，试计算 c = { s c ， e c ， f c } = a x b 。 c 的符号 s c = s a ㊉ Sb , c 的绝对值 
| c | = | a | x | b | = (2 e *- 127 x 1 . f a ) x (2 ^~ 127 x 1 . f b ) = 我 

们有 1.0 < ( l . f a x l . f b ) < 4.0。 如果 l . f a x l . f b < 2.0, 则 e c = e a + eb —127, l . f c = 
l . f a x l . fb ， 否则 e c = e a + Cb — 127 + 1 , l . f c = ( l . f a x l . fb ) >> 1 (右移 ~■ 位)。 

因为规格化数的阶码 e 满足1彡 e 彡254,所以 一125 彡 （ e a + e b — 127) 彡 
381, 一 124彡 （ e a + e b — 127 + 1) 彡382 。 BP ， e c 有可能超出 1 〜254的范 
围。当1 < e c < 254时，相乘结果为规格 化数； 当 e c > 254时，结果用 
无穷大 （ e c = 255, f c = 0) 表示；当 e 。 < 1时，如果相乘结果大于或等于 
2- 126 X 0.00000000000000000000001 = 2 一 149 时，可以用非规格化数表示，否则 

用0表不。 

规格化数的阶码 e 满足1 ^ e ^ 254意味着实际的阶码 〆 （即 e — 127) 满足 
一 126 彡 e ' 彡127。设3 = {s a ， e a ， f a } 为规格化数 ， b = {s b ， e b ， f b } 为非规格化 
数（办= 0，4 # 0 )。 c = a x b 的绝对值 | c | = | a | x | b | = (2 C,_I27 x l . f a ) X 
(2~ 126 x 0. f b ) = 2( e *_ 253 ) x ( l.fa x 0. f b ) o 最大绝对值为 2 254 — 253 x (2 - 2 — 23 ) x 
(1 一 2- 23 ) = 2 x (2 - 3 x 2~ 23 + 2_ 46 )， 这是一个规格化数。最小绝对值为 
2 1 - 253 X 1.0 X 2- 23 = 2_ 275 。这已经超出了 ^所应在的范围，即结果可能为非规格 
化数或者0。 

设8 = { s a ， e a ， f a }， b = { sb ， eb ， fb } 都是非规格化数 。 c = a x b 的绝对值 
|c| = |a| x |b| = (2— 126 x 0. f a ) x (2 -126 x O . fb ) = 2~ 252 x (0. f a X O . fb )。 结果比非 
规格化数所能表示的最小绝对值还要小，应设其为0。 

最后讨论几种特殊的运算： （1) 假设 b 7^ 0并且 b # NaN , 则 oo x b = oo ; (2) 
NaN x b = NaN ； (3) oo x 0 = NaN q 

以下的程序用来测试 x 86 执行浮点乘法时产生的结果（用十六进制数表示)。该 
程序的执行结果对浮点乘法器的设计冇参考作用。 
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// Rounding test for (x86 + Linux + gcc) 

#include<stdio.h> 

♦ define Near asm volatile( n fldcw —RoundNear ”） 

#define Down asm volatile( n fldcw 一 RoundDown"> 

#define Up asm volatile( n fldcw 一 RoundUp ”〉 

#define Chop asm volatile("fldcw —RoundChop") 
int _RoundNear = 0xl03f; // 舍入控制码 = 00 , 就近舍入 
int —RoundDown = 0xl43f; // 舍入控制码 = 01 ，向下舍入 
int —RoundUp = 0xl83f ; /•/ 舍入控制码 = 10 ，向上舍入 
int _ RoundChop = 0xlc3f ; // 舍入控制码 = 11 ，向 0 舍入 
int main(void) { 
union { 

int intword; 
float floatword; 

} u, v f s; 4 

while (1) { 

fprintf (stderr,"input 1st f_p number in hex format : "); 
fscanf (stdin,"%x",&u.intword); 

fprintf (stderr, "input 2nd f_p number in hex format : •’）； 
fscanf (stdin,"%x",&v.intword); 

Near; // 就近舍入 

s•floatword = u.floatword ★ v.floatword; 

fprintf (stderr,"the prod of 2 fp numbers is (near) : ” 

"%08X\n",s•intword); 

Down; // 向下舍入 

s.floatword = u.floatword ★ v.floatword; 

fprintf (stderr f "the prod of 2 fp numbers is (down) : 11 

"%08X\n w ,s•intword); 

Up; // 向上舍入 

s.floatword = u.floatword * v.floatword; 

fprintf (stderr, "the prod of 2 fp numbers is ( up ) : ，• 

” ％ 08X\n",s•intword); 

Chop; // 向 0 舍入 

s.floatword = u.floatword * v.floatword; 

fprintf (stderr,"the prod of 2 fp numbers is (chop) : ” 

11 % 08X\n w , s . intword); 


我们选择 8 组数据来运行上述程序，就近舍入的运行结果在表 9.4 中列出。第1 
组示出规格化时阶码加1 (1.5 X 1.5 = 2.25); 第2组是两个绝对值最小的规格化数 
相乘，结果为0;第3组是两个绝对值最大的规格化数相乘，结果为无穷大（就近舍 
人)； 第4组表示两个规格化数相乘结果为非规格化数的 情况； 第5组是一个非规格 
化数乘以一个规格 化数； 第6组是无穷大乘以一个规格化数，结果为无 穷大； 第7 
组是无穷大乘以0,结果为 NaN ; 第8组是 NaN 乘以一个规格化数，结果为 NaN 。 
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S 



S 


♦ 


部分积 


相加 


规格化 



b 


sub 


图 9.13 浮点乘法器电路的总体模块阁 

module fmul (a,b,rn\, s); 

input [31:0] a,b; // fp inputs a and b 
input [1:0] rm; // round mode 
output [31:0] s; // fp output 

判断结果是否为无穷大或者 NaN 以及设 定无穷 大或者 NaN 的 II 数 , 

wire a—expo—is 一 00 = 〜 |a[30:23】；// exp = 00 

wire b 一 expo—is_00 = ^|b[30:23]; 

wire a 一 expo 一 is—ff = & a[3 0:2 3]; // exp = ff 

wire b 一 expo 一 is 一 ff = &b[30:23]; 

wire a 一 frac 一 is 一 00 = '|a [22:0]; // frac = 0 


表 9.4 浮点乘法操作结沿 


n 

1 

2 

3 

4 

5 

6 

7 

8 

a 

3FC00000 

00800000 

7F7FFFFF 

00800000 

003FFFFF 

7F800000 

7F800000 

Tffoooff 

D 

3FC00000 

00800000 

7F7FFFFF 

3F000000 

40000000 

00FFFFFF 

00000000 

3F80FF00 

s 

40100000 

00000000 

7F800000 

00400000 

007FFFFE 

7F800000 

FFC00000 

7FF000FF 


9.4.2 Wallace 树型浮点乘法器 Verilog HDL 代码 

浮点乘法器的总体结构如图 9.13 所尔，由（部分 组成： （1) 用 Wallace Tree 计算 
部 分积； （2) 部分积 相加； （3) 规格化。以下我们描述如何用 Verilog HDL 来设计浮点 
乘法器。模块名为 fmul ， 输人信号 a 和 b 是两个单精度浮点数， rm 是两位舍入控制 
码，输出信号 s 是单精度浮点结果。 
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wire b_f rac_is_00 = *" | b [ 22 : 0 ]; 

wire a—is—inf = a 一 expo 一 is 一 ff & a 一 frac_is 一 00; 

wire b 一 is — inf = b_expo_is_ff & b 一 frac 一 is 一 00; 

wire a—is—nan = a 一 expo—is—ff & ~a_frac 一 is 一 00; 

wire b 一 is 一 nan = b_expo_is_ff & ~b—frac 一 is 一 00; 

wire a—is—0 = a — expo 一 is 一 00 & a—frac 一 is 一 00; 

wire b_is_0 = b_expo_is_00 & b_frac 一 is 一 00; 

wire is 一 inf 一 nan = a_is 一 inf | b — is 一 inf | a 一 is 一 nan | b 一 is—nan; 

wire s 一 is—nan = a 一 is 一 nan | (a 一 is 一 inf & b_is_0) | 

b 一 is 一 nan | (b 一 is 一 inf & a_is 一 0 〉 ； 
wire [22:0] nan—frac = ({l r b0 f a[22:0]} > {1'bO,b[22:0]}) ? 

{l / bl / a[21:0]} : {l ， bl,b[21:0]}; 
wire [22:0] inf_nan_frac = s_is—nan? nan—frac : 23 f hO; 

以下代码生成结果符号以及临时阶码 explOo 由于计算规格化数的绝对值时要从 
阶码中减去 127 ，而在计算非规格化数的绝对值时减 126 ，我们在计算 explO 时加入 
了 a_expo.is.00 ffl b_expo_is_00 o 

wire sign = a [31] " b[31]; 

wire [9:0] explO = { 2, hO, a [30 : 23】 } + { 2, hO, b [ 30 •• 23 ] } - 10 f h7f + 

a—expo 一 is 一 00 + b_expo 一 is 一 00; // -126 

以下代码使用 24 位 Wallace 树型乘法器产生部分积，然后对部分积相加。有关 
Wallace 树型乘法算法的具体细节，请参阅第 3 章。 

wire [23:0] a 一 frac24 = ra 一 expo—is— 00, a[22 : 0]} ; 

wire [23:0] b 一 frac24 = rb 一 expo—is—00,b[22:0]}; 

wire [47:0] z; 

wire [38:0] z_sum; 

wire [39:0] z—carry; 

wallace_tree24 wt24 (a—frac24,b—frac24,z 一 sum,z—carry,z[7:0]); 
assign z[47:8] = {l’b0,z 一 sum} + z_carry; 

以下代码根据相加结果生成尾数并对尾数进行舍入操作。 

wire [46:0] z5,z4,z3,z2,zl,z0; // x•fffffffffffffffffffffff … 

wire [5:0] zeros; 

assign zeros[5 】 ="|z[46:15]; // 32 - bit 0 

assign z5 = zeros[5]? {z [ 14:0],32’bO} : z [46:0]; 
assign zeros[4] = '|z5[46:31]; // 16-bit 0 

assign z4 = zeros[4]? {z5[30: 0 】 ， 16’bO} : z5; 

assign zeros[3] = "|z4[46:39]; // 8-bit 0 

assign z3 = zeros[3]? {z4[38:0 】， 8’bO} : 24; 

assign zeros [2] = | z3 【 46: 43]; // 4-bit 0 

assign z2 = zeros[2]? {z3 f42:0] f 4 f bO} : z3; 

assign zeros[1] = "|z2[46:45]; // 2-bit 0 

assign zl = zeros[1]? {z2 [44:0] f 2'bO} : z2; 

• assign zeros[0] = ” zl[46 】； // 1-bit 0 
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assign zO = zeros [0] ? { zl [45: 0] f 1/bO} : zl; 
reg [9:0] expO; 

reg [46:0] fracO; 

always @ * begin 

if (z[47]) begin 

expO = explO + 10 f hi; // lx•xxxxxxxxxxxxxxxxxxxxxxx xxx 

fracO = z[47:1 ]; 
end else begin 

if (!explO[9] && (explO[8:0] > zeros) && zO[46]) begin 

expO = explO - zeros; // 01•xxxxxxxxxxxxxxxxxxxxxxx xxx 
fracO = zO; 
end else begin 

expO = 0; // is a denormalized number or 0 

if (!explO[9] && (explO != 0)) 

fracO = z[46:0] << (explO - 10 f hi); // e-127 — > -126 

else fracO = z[46:0] >> (10’hl - explO); // e = 0 or neg 

end 

end 

end 

wire [26:0] frac = {fracO[46:21] f |fracO[20:0]); 
wire frac_plus 一 1 = 

~rm[1] & - rm[0 】 & fracO[2] & (fracO[1] | fracO[0]) I 

~rm[1] & ~rm[0] & fracO[2] & 'fracO[1] & 'fracO[0] & fracO[3] I 
一 rm[l] & rm[0] & (fracO[2] | fracO[1] | fracO[0]) & sign | 

rm[1] & - rm[0] & (fracO[2] | fracO[1] | fracO[0]) & "sign; 

wire [24:0] frac 一 round = {1’bO,frac 【 26:3】 } + frac_plus 一 1; 
wire [9:0] expl = frac 一 round[24 】？ expO + lO'hl : expO; 
wire overflow = (expO >= 10 f hOff) | (expl >= 10’hOff); 

最后，根据结果是否为无穷大或 NaN ， 选择出最后的32位单精度浮点结果 s 。 

wire [7:0] final 一 exponent ; 
wire [22:0] final 一 fraction; 

assign {final 一 exponent,final 一 fraction} = final 一 result(overflow, rm, 

sign, is—inf 一 nan, expl[7:0], frac 一 round[22:0], inf_nan_frac); 
assign s = {sign,final 一 exponent,final—fraction}; 
function [30:0] final 一 result; 
input overflow; 

input [1:0] rm; 

input sign, is—inf 一 nan; 

input [7:0] exponent; 

input [22:0] fraction, inf—nan 一 frac; 
casex ({overflow, rm, sign, is 一 inf 一 nan}) 

Sai-OO 一 x 一 x : final 一 result = { 8 # hf f # 23 # hOOOOOO}; // inf 

5’bl 一 01_0 一 x : final 一 result = {8’hfe,23'h7fffff}; // max 

5 f bl 一 01 一 l」c : final 一 result = {8 # hff f 23 f hOOOOOO); // inf 

5 ， bl_10 一 0 一 x : final 一 result = {8 f hff f 23 / hOOOOOO}; // inf 

5'bl_10_l_x : final_result = {8'hfe,23’h7fffff}; // max 
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5’bl 一 11 一 x x : final 一 result = { 8’ hfe, 23'h7fffff} ; // max 

5 r b0...xx_x_0 : final—result = {exponent, fraction}; // normal 

5’bO—xx_—x—1 : final—result = {8’hff,inf 一 nan_frac}; // inf_nan 

default : final—result = {hOO^23’hOOOOOO}; // 0 

endcase 
endfunction 
endmodule 

图 9.14 给出仿真结果。其输入值 W 运行 C 程序时的输入值（见表 9.4) 相同。输 
出结果除第7项之外4 C 程序的输出结果相同。第7项是 （+ oo ) X (+0) ，二者的结 
果都是 NaN ， 但符号位不同。 

, mam ^ • m ^ • 

rm .( 0 ) 

a ( 3FC00000 X 00800000—)( 7F7FFFFF X 00800000 X 003FFFFF X 7F800000 X 7FF0Q0FF ) 

» b ( 3FCOOOOO X 008000(KrX 7F7FFFFF~X 3FOOOOOO X 40000000 X 00FFFFFF )(^00000000 X~5F80FF00 ) 

必 s ( 40100000 X 00000000~)(^F800000 X 00400000 X 007FFFFE X 7F800000 X 7FCOOOOO X 7FF000FF ) 


I 冬 19.14 浮点乘法器仿真结果 

由于 wallace _ tree 24 模块的源代码与我们在第3章描述的8位版本类似，这里就 
没有列出。注意它只完成部分积的计算，输出加法的和 W Z _ sum 及进位位 zxarry 。 
输人 a 和 b 是两个24位二进制数。另外，输出 z 是 Wallace 树型乘法器的低8位结 
果。高40位结果由主模块 fmul 把 z _ sum 和 z carry 相加得到。图 9.15 〜图 9.17 合在 
一起是24位 Wallace 树型乘法器电路的结构图。 



17 16 15 14 13 12 11 10 09 08 07 06 05 04 03 02 0100 


图 9. 15 24位 Wallace 树咽乘法器——结果17〜00位 
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27 26 25 24 23 22 21 20 19 18 


阁 9.16 24 位 Wallace 树型乘法器 —— 结果 27 〜 18 位 
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图 9. 17 24 位 Wallace 树型乘法器 —— 结果 47 〜 28 位 
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以上结构图仅供读者在书写24位 Wallace 树型乘法器的 Verilog HDL 代码时参 
考。图中第1行数字是乘积位的编号，第2行的数字是相应位的乘积项数量，第3行 
的数字是相应位在第1级所使用的全加器数量。 

9.4.3 流水线 Wallace 树型浮点乘法器设计 

流水线浮点乘法器能在每个周期接收一条浮点乘法指令，其电路结构如图 9.18 
所示，由3级组成。第1级由 Wallace 树型乘法器完成部分积的计算，第2级对部分 
积相加，第3级完成规格化操作。级与级之间插入流水线寄存器。 



图 9.18 流水线浮点乘法器 

流水线浮点乘法器的 Verilog HDL 顶层代码列在下面，它调用5个模块， 
分别是： （1) 部分积产生模块 (2) 第1级与第2级之间的流水线寄存器 
reg _ muLadd ； (3) 部分积相加模块 ftnuLadd ; (4) 第2级与第3级之间的流水线寄存器 
reg - add_norm ； (5) 规格化模块 finul — norm 。 

module pipelined 一 fmul (a,b,rm,s,clock,clrn,e) ; 

input [31:0] a, b; // fp inputs a and b 

input e; // enable 

input [1:0] rm; // round mode 

input clock,clrn; 

output [31:0] s; // fp output 

wire m 一 sign; 

wire [9:0] m 一 explO; 

wire m is inf nan; 

wire [22:0] m 」 nf — nan 一 f rac; 

wire [38:0] m—sum; 

wire [39:0] m 一 carry; 

wire [7:0] m 一 z8; 

fmul_mul mull (a,b,m 一 sign,m—exp10,m—is—inf—nan,m 一 inf—nan 一 frac, 

m 一 sum,m_carry,m 一 z8); 
wire [1:0] a_rm; 
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wire 


a 一 

sign; 

wire 

[9:0] 

a_ 

.explO; 

wire 


a 一 

is inf nan; 

wire 

[22:0] 

a_ 

inf nan frac; 

wire 

[38:0] 

a 一 

■sum; 

wire 

[39:0] 

a 一 

■carry; 

wire 

[7:0] 

a— 

_z8; 

reg—mul_add 

reg_ 

ma (rm,m 一 sign, 

m—inf—nan 一 
clrn f e, a_ 
a—inf 一 nan 一 

wire 

[47:8] 

a— 

•z40; 

fmul. 

一 add mu12 (a 

[_sum f carry, a 

wire 

[47:0] 

a 一 

•z4 8 = {a_z40,a 

wire 

[1:0] 

n 一 

rm; 

wire 


n_ 

sign; 

wire 

[9:0] 

n 一 

explO; 

wire 


n_ 

is inf nan; 

W 

wire 

[22:0] 

n 一 

inf—nan—f rac; 

wire 

[47:0] 

n 一 

z4 8; 


m—inf—nan_frac,m 一 sum,m 一 carry,m 一 z8,clock, 

a—rm,assign,a 一 explO, a — is — inf 一 nan. 


reg 一 add—norm reg—an (a 一 rm,a—sign,a 一 explO,a 一 is—inf—nan, 

a__inf—nan_frac f a 一 z48, clock, clrn, e 
n 一 rm, n_sign, n_explO, n 一 is 一 inf—nan, 
n—inf 』 an—frac,n—z48); 

fmul_norm mu13 (n 一 rm,n—sign,n—explO,n—is—inf 一 nan. 


n 一 inf—nan—frac,n—z48,s); 


endmodule 


以下是部分积产生模块 fmuljnul 的代码。它的主要任务是调用 wallace . tree 24 模 
块产生部分积，同时也处理无穷大和 NaN 等特殊情况。 

籲 

module fmul_mul (a,b,sign,explO,inf—nan,inf—nan—frac. 


z 一 sum, z_carry, z8); 


input 

[31:0] 

a f b; 






output 


sign; 






output 

[9:0] 

explO; 






output 


inf 一 nan; 






output 

[22:0] 

inf 一 nan—frac; 





output 

[38:0] 

z_sum; 






output 

[39:0] 

z—carry; 






output 

[7:0] 

z8; 






wire 


a—expo—is_ 

_00 = 

-|a[30:23]; 

// 

exp = 

00 

wire 

t 


b—expo—is_ 

•00 = 

*|b[30:23]; 




wire 


a 一 expo 一 is 一 

_ff = 

&a[30:23]; 

// 

exp = 

ff 

wire 


b_expo_is_ 


&b[30:23]; 




wire 


a—frac—is 一 00 = 

""|a[22:0]; 

// 

f rac 

= 0 
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wire b 一 frac 一 is—00 = ^| b[22 : 0] ; 

wire a 一 is 一 inf = a—expo—is 一 ff & a_frac 一 is 一 00; 

wire b—is 一 inf = b—expo—is—ff & b_frac 一 is 一 00; 

wire a 一 is—nan = a_expo 一 is 一 ff & ~a_frac—is—00; 

wire b—is_nan = b_expo_is_ff & ~b_frac_is_00; 

wire a—is — 0 = a 一 expo 一 is 一 00 & a 一 frac 一 is—00; 

wire b_is_0 = b_expo_is_00 & b_frac_is_00; 

assign inf 一 nan = a 一 is—inf | b 一 is 一 inf | 

a is nan | b is nan; 

wire s 一 is—nan = a 一 is 一 nan | (a 一 is 一 inf & b 一 is 一 0> | 

b—is 一 nan | (b 一 is 一 inf & a 一 is 一 0); 

wire [22:0] nan—frac= ({l f b0 f a[22:0]} > { 1 ， bO,b[22:0]}) ? 

{l ， bl,a[21:0】} : {l ， bl,b[21:0】}; 

assign inf 一 nan—frac = s—is 一 nan? nan—frac : 23 # hO; 

assign sign = a [31] " b[31]; 

assign explO = {2,hO, a[30:23]} + {2 f h0 f b[30:23]} - 

10 f h7f + a—expo 一 is 一 00 + 
b_expo—is—00; // -126 

wire [23:0] a 一 frac24 = a—expo 一 is 一 00,a[22:0]}; 
wire [23:0] b_frac24 = {"b 一 expo 一 is—00,b[22:0]}; 

Wallace 一 tree24 wt24 (a—frac24,b_frac24,z_sum f z—carry,z8); 
endmodule 

第 1 级与第 2 级之间的流水线寄存器 regjnuLadd 的代码如下。 

module reg 一 mul 一 add (m_rm,m_sign,m_explO,m_is—inf_nan, 

m 一 inf 一 nan—frac,m 一 sum,m_carry,m_z8,clock, clrn,e,a 一 rm,a 一 sign, 

a—explO,a 一 is — inf 一 nan,a 一 inf 一 nan 一 frac,a—sum,a 一 carry,a 一 z8); 

input e; // enable 

input [1:0] m—rm; 

input m — sign; 

input [9:0] m 一 explO; 

input m 一 is—inf 一 nan; 

input [22:0] m 一 inf—nan 一 frac; 

input [38:0] m 一 sum; 

input [39:0] m_carry; 

input [7:0] m 一 z8; 

input clock,clrn; 

output [1:0] a_rm; 

output a_sign; 

output [9:0] a_expl0; 

output a—is—inf 一 nan; 

output [22:0] a—inf—nan—frac; 

output [38:0] a 一 sum; 

output [39:0] a—carry; 

output [7:0] a 一 z8; 



9.4 浮点乘法器 FMUL 设计 


279 


reg [1:0] 


a_rm; 


reg 

reg [9:0] 
reg 

reg [22:0] 
reg [38:0] 
reg [39:0] 
reg [7:0] 


a 一 sign; 
a 一 explO; 
a is inf nan; 
a inf nan frac 


a sum; 


a—carry; 
a z8; 


always @ (posedge clock or negedge clrn) begin 


if (clrn 




0) begin 


a rm 


a—sign 
a—exp10 
a is inf nan 


< 

< 

< 

< 


0 


0 

0 


a_inf nan frac < 


a—sum 
a_carry 
a z8 


< 

< 


< 


0 


end else if (e) begin 


a_rm 


assign 
a—exp 10 
a is inf nan 


<=m 一 rm; 

<=m 一 sign; 
<=m 一 explO 


< 


m is_inf_nan 


a inf nan frac <= m inf nan frac 


a_sum 


a 一 carry 


a z8 


<=m_sum; 

<=m 一 carry; 
<=m z8; 


end 


end 


endmodule 


部分积相加模块 fmuLadd 非常简单。 


module fmul_add (z 一 sum,z 一 carry,z); 

input [38:0] z 一 sum; 
input [39:0] z 一 carry; 
output [47:8] z; 

assign z = {1/bO,z 一 sum} + z_carry; 
endmodule 

以下是第 2 级与第 3 级之间的流水线寄存器 reg _ add _ norm 的代码。 

module reg 一 add—norm ( 

a 一 rm,a_sign,a—expl0,a 一 is—inf—nan,a—inf — nan 一 frac,a 一 z48,clock, 
clrn,e,n—rm,n_sign,n 一 explO,n—is—inf 一 nan,n 一 inf 一 nan 一 frac,n—z48}; 
input e; // enable 

input [1:0] a—rm; 
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input a—sign; 

input [9:0] a—explO; 

input a_i s 一 in f 一 nan; 

input [22:0] a 一 inf 一 nan 一 frac; 

input [47:0] a_z48; 

input clock,clrn; 

output [1:0] n_rm; 

output n 一 sign; 

output [9:0] n—expl0; 

output n—is — inf—nan; 

output [22:0] n 一 inf 一 nan—frac; 

output [47:0] n 一 z4 8; 

reg [1:0] n_rm; 

reg n 一 sign; 

reg [9:0] n 一 explO; 

reg n 一 is 一 inf 一 nan; 

reg [22:0] n—inf_nan—frac; 

reg [47:0] n—z48; 

always @ (posedge clock or negedge clrn) begin 

if (clrn == 0) begin 

n 一 rm <= 0; 

n 一 sign <= 0; 

n 一 exp 10 <= 0; 

n—is—inf_nan <= 0; 
n_inf_nan_frac <= 0; 
n_z4 8 <= 0; 

end else if (e) begin 

n rm <= a rm; 

n 一 sign <= a—sign; 

n 一 exp10 <= a—expl0; 

n is inf nan <= a is inf nan; 
n inf nan frac <= a inf nan frac; 

n 一 z48 <= a_z48; 

end 

end 

endmodule 

规格化模块 finuLnorm 的代码如下。输出是乘积 s ， 32位的单精度浮点数。 

module fmul_norm (rm,sign,explO,is 一 inf 一 nan,inf 一 nan—frac,z,s); 
input [1:0] rm; 
input • sign; 
input [9:0] explO; 
input is 一 inf 一 nan; 

input [22:0] inf 一 nan 一 frac; 
input [47:0] z; 
output [31:0] s; 
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wire [46:0] z5,z4, z3, z2, zl, z0; // x.fffffffffffffffffffffff... 

wire [5:0] zeros; 

assign zeros[5] = * | z [46:15]; 

assign z5 = zeros[5]? {z[14:0] f 32 # bO} : z[46:0] 

assign zeros[4 】 =~|z5[46:31]; 

assign z4 - zeros[4]? {z5[30: 0 】 ， 16’bO} : z5; 

assign zeros[3] = ~I 24 [46:39]; 

assign z3 = zeros[3 】？ {z4[38:0] # 8'bO} : z4; 

assign zeros[2] = " | z3 [46:43]; 

assign z2 = zeros[2]? {z3[42:0J # 4’bO} : z3; 

assign zeros[1] = "|z2[46:45]; 

assign zl = zeros[1]? {z2[44:0] # 2’bO} : z2; 

assign zeros[0] = "zl[46]; . 

assign zO = zeros[0 】？ {zl [45:0] # 1’bO} : zl; 

reg [9:0] expO; 

reg [46:0] fracO; 

always @ * begin 

if (z 【 47]) begin 

expO = explO + 10 # hi; // lx.xxxxxxxxxxxxxxxxxxxxxxx xxx 

fracO = z[47:l 】； 
end else begin 

if (’ .explOfS】&& 《 expl0[8:0】> zeros) && zO[46] ) begin 

expO = explO - zeros; // 01.xxxxxxxxxxxxxxxxxxxxxxx xxx 
fracO = zO; 
end else begin 

expO = 0; // is a denormalized number or 0 

if (!explO[9] && (explO != 0)) 

fracO = z[46:0] « (explO - 10 # hl); // e-127 —> -126 
else fracO = z 【 46:0] >> (10 f hi 一 explO); // e = 0 or neg 

end 

end 

end 

wire [26:0] frac = {fracO[46:21 ], |fracO[20:0]}; 
wire frac_plus 一 1 = 

"■rm[l ] & "rm[0] & fracO [2] & (fracO [1] | fracO [0] ) | 

•rm[l] & •rmfO] & fracO[2] & _frac0[l] & "fracO[0] & fracO[3] | 

rm[ 1 ] & rm[0] & (fracO [2] | fracO [ 1] | fracO [0] ) & sign | 

rm[l] & ~rm[0 】 & (fracO[2] | fracO[1] | fracO[0]) & ‘sign; 

wire 【 24:0] frac 一 round = {1’bO,frac[26:3]} + frac_plus 一 1; 
wire [9:0] expl = frac 一 round[24 】 ？ expO + 10 / hi : expO; 
wire overflow = (expO >= 10’h0ff> | (expl >= 10’hOff); 

wire [7:0] final 一 exponent; 
wire [22:0 】 final 一 fraction; 

assign {final 一 exponent,final 一 fraction} = final 一 result(overflow, rm, 

sign, is 一 inf 一 nan, expl[7:0 】， frac 一 round[22:0], inf 一 nan 一 frac); 
assign s = {sign,final 一 exponent,final 一 fraction}; 
function [30:0] final 一 result; 


// 32-bit 0 
// 16-bit 0 
// 8-bit 0 
// 4-bit 0 
// 2-bit 0 
// 1-bit 0 
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input 


overflow 


input [1:0 】 rm; 


input 


sign, is—inf 一 nan; 


input [7:0] exponent; 

input [22:0] fraction, inf 一 nan—frac; 


casex 



5 ， bl_ 

00 
mm «i 

_x_ 

_x 

5 # bl. 

.01. 


_x 

bl_ 

.01. 

■: L 

一 X 

5 ， bl_ 

10 

_0. 

_x 

5 ， bl_ 

.10. 

_1_ 


5 # bl. 

-.11. 

_x_ 

_x 

5 ， b0_ 

-XX. 

_x_ 


bO. 

-XX. 


-1 


default 


endcase 
endfunction 



sign, is_inf_nan}) 


final result 



final 一 result 
final — result 
final 一 result 
final—result 
final_result 
final—result 
final 一 result 
final result 
















{8 ， hfe,23 ， h7fffff} 
{VhffW^hOOOOOO} 
Whff,23 ， .h000000} 
{8 ， hfe,23 ， h7fffff} 
{8 ， hfe,23 ， h7fffff} 


// inf 
// max 
// inf 
// inf 
// max 
// max 


{exponent # fraction}; // normal 

{ 8 〃 hff,inf 一 nan 一 frac}; // inf 一 nan 


{8^00,23^000000}; 


// 0 


endmodule 


图 9.19 是流水线浮点乘法器的仿真结果。图中左上的数字1，2和3表示浮点数 


3 FC 00000 乘以 3 FC 00000 的流水线级数。在第3级出来结果，即40100000 


O 


dm 



0 




( 3FCOOOOO 
C 3FC00000 


X ooeooooo X 7F7FFFFFX OOSOOOOOX 003FFFFF 


7F800000 


X 7FF0Q0FF^( 00000000 


X 00800000 X 7F7FFFFF X 3FOOOOOO 


00FFFFFF X 


3F60FF00 X 


00000000 


X 40100000 X 


X 7F800000 


007FFFFE X 7F800000 X 7FCOOOOO X 


图 9.19 流水线浮点乘法器仿真结果 


9.5 浮点除法器 FDIV 设计 

本节首先讨论浮点除法算法，然后给出用 Newton - Raphson 算法设计的浮点除法 
器的 Verilog HDL 源代码 3 

9.5.1 浮点除法算法 


浮点除法算法与浮点乘法算法基本相似，主要的不同点就是阶码的运算。首先 
考虑两个规格化浮点数的除法操作。设3 = { s a ? e a , fa }, b = { s b , eb , fb } 是两个 IEEE 
754单精度浮点数，试计算 c = { s c ， e c ， f c } = a / b 。 结果 c 的符号 s c = s a ㊉ Sb ， c 的绝 
对值 | c | = | a |/| b | = (2 e '- 127 xl . f a )/(2^- ,27 xl . f b ) = 2( e r % +127 )- 127 x ( l . f a / l . f b )。 

我们有 0.5 < (l.f a /l.fb) < 2.0 。 如果 l.fa/l.fb ^ 1.0 , 则 e c = e.-eb + 127, l.f c = 
l.fa/l.fb ， 否则 e c = e a - 邙 + 127 — 1 ， l.f c = (l.f a /l.f b ) « 1 ( 尾数左移一位，阶 
码减 1 )。 
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因为规格化数的阶码 e 满足1彡 e 彡254,所以 一126 彡 （ e a —办+ 127) < 
380， 一127 彡 （ e a —办+ 127 - 1) ^ 379。即， e c 有可能超出1〜254的范 
围。当1 < e c < 254时，除法结果为规格 化数； 如果 e c 〉254,结果用无穷 
大 （ e c = 255, f c = 0) 表示； 当 e c < 1时，如果除法结果大于或等于2_ 126 X 
0.00000000000000000000001 = 2_ 149 ,可以用非规格化数表示，否则用0表示。 


规格化数的阶码 e 满足1 < e < 254意味着实际的阶码 〆 （即 e — 127) 满足 


-126 < 〆 < 127。设3 = { s a ， e a ， f a } 为规格化数， b = { s b ， e b ， f b } 为非规格化数 
(e b = 0， fb # 0 )。 c = a/b 的绝对值 | c | = | a |/| b | = (2 〜一 127 x l . f a )/ (2 - 126 x O.fb)= 


2 〜- 1 x ( l . f a /0. f b )。 最大绝对值为 2 254 - 1 X (2 — 2— 23 )/2 - 23 


= 2 276 X (2 - 2一 23 )， 


应设结果为无穷大。最小绝对值为2 1 - 1 X 1.0/(! 一 2_ 23 )，这是一个规格化数。 


设 a = { s a ， e a ， f a } ， b = { sb ， 办， fb } 都是非规格化数 。 c = a / b 的绝对值 | c | = 
| a |/| b | = (2 - 126 X 0. f a )/(2 - 126 X 0. f b ) = 0. f a /0. f b 。 不论 f a 和 f b 为何值，结果都是 

一 个规格化数。 


最后我们讨论几种特殊的运算： （1) 假设 a # oo 并且 a # NaN ， 则 a/oo = 0; 
(2) 假设 a ^ 0并且 a # NaN ， 则 a /0 = oo ; (3) 0/0 = NaN ； (4) oo/oo = NaN ; 
(5) NaN/b = NaN 0 


9.5.2 Newton-Raphson 浮点除法器 Verilog HDL 代码 


Newton _ Raphson 除法算法已在第 3 章中给出，它包括两部分操作： （1) 迭代操 
作： Xj+i = Xi (2 — Xjb )； (2) 商的计算 ： q = a x x no Newton-Raphson 浮点除法器电 
路的总体结构如图 9.20 所示。 



mpppsi 


enable 

clock 



ID (牛顿迭代) 


部分积 


相加 


规格化 


阁 9.20 Newton - Raphson 浮点除法器电路的总体模块图 
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为了向浮点乘法流水线靠近，我们在计算 x 1+1 = Xi (2 — Xi b) 时暂停流水线，^ 
在计算结果 a X x n 时启动流水线。图 9.21 是 Newton-Raphson 浮点除法器的流水线示 
意图。査表得出 xo 用一个周期， 3 次牛顿迭代用 15 个周期。这 16 个周期由 stall 信 
号暂停流水线。然后是两个周期的乘法和一个周期的规格化。这部分与浮点乘法器 
类似，用流水线方式实现。将在下面描述如何产生 stall 信号。 • 


\^0 1 

1st iteration | 2nd iteration | 3rd iteration 

| mul | normalization 

div.s 1 IF 1 ID ! 1 I 2 

M 3 1 4 1 S | 6 1 7 | 8 | 9 | 10 | 11 | 12 1 13 1 14 1 IS I 16 | 17 | 18 | 19 Iwl 


=^> 1 IF 1 ID stall 


1 El 1 E2 1 E3 IWl 

dock n_r^jLn 

LrLrLrLrLrLrLrLrLrLn_rLrLn_n 

/n_rmnjn 

stall 1 

U 

r 

图 9.21 浮点除法指令的流水线 


以下是 Newton-Raphson 浮点除法器的 Verilog HDL 代;码。输出信号 count 是为 
演示仿真结果方便起见所设置，它只是一个内部信号。 


module fdiv — newton (a,b,rm,fdiv,enable,clock,resetn 


input [31:0] a, b 
input [1:0] rm; 
input 
input 


s,busy,stall,count,reg—x) 

// fp a / b 


fdiv 


// round mode 
// ID stage : i 一 fdiv 


enable,clock,resetn; // enable 


output [31:0] s; 


// fp output 



output 


busy; // for generating stall 


output stall; // for pipeline stall 

output [4:0] count; // for iteration control 

output [25:00] reg 一 x; // x—i 

parameter ZERO = 31 f hOOOOOOOO ; 

parameter INF = 33/h7f800000; 

parameter NaN = 31 f h7fc00000; 

parameter MAX = 31 f h7f7fffff; 


以下代码判断两个输入的浮点数是否为特殊的浮点数，如阶码是否为0,是否为 
全1,尾数是否为0等。 


wire 

a_ 

_expo_ 

_is_ 

.00 = 

"|a[30:23] ; 

// 

a. 

_expo = 

00 

wire 

b. 

.expo. 

.is. 

•00 = 

一 |b[30:23]; 

// 

b 

_expo = 

00 

wire 

a_ 

■expo 一 

-is. 

Jf = 

&a[30:23] ; 

// 

a_ 

一 expo = 

ff 

wire 

b_ 

.expo. 

.is. 

Jf = 

&b[30:23] ; 

// 

b. 

_expo = 

ff 

wire 

a_ 

_frac_ 

_is_ 

_00 = 

• |a[22:0] ; 

// 

a_ 

_frac = 

00 

wire 

b_ 

_frac_ 

-is. 

.00 = 

• |b[22:0]; 

// 

b 一 

_f rac = 

00 


结果的符号由两个输入浮点数符号位“异或”得到。阶码暂时定为 e a - eb +127 f 
后面还要调整。非规格化数也使用上式计算阶码，但要把尾数左移一位。这时的尾 
数已经加入了隐藏位。 
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wire sign = a[31 】 "b[31]; 

wire [9:0] exp 一 10 = { 2, hO,a[30:23 】 } - { 2, hO,b[30:23]} + 10 ， h7f; 
wire 【 23:0 】 a—temp24 = a 一 expo_is_00? {a[22: 0 】 ， 1 ， bO} : {l f bl,a[22: 0 】 }; 
wire [23:0] b—temp24 = expo—is — 00? {b[22:0] , 1/bO} : {1’bl,b[22: 0】 }; 

由于我们使用 Newton - Raphson 算法，尾数的最高位必须为1。这对规格化浮点 
数来讲没有问题，但我们的除法电路也允许非规格化浮点数参加计算，因此要把非 
规格化浮点的尾数调整为最高位也为1的格式。调整的方法是把尾数左移，直到最 
高位为1为止。这部分电路由另一个模块实现，模块名为 shift _ to _ msb _ equ_l , 将在下 
面给出。移位时要记录浮点数 a 和 b 各自左移了多少位，然后用它们来调整阶码，以 
保证浮点数值大小不变。 


wire [23:0] a_frac24 f b_frac24; // to lxx...x for den 
wire [4:0] shamt — a,shamt—b; // how many bits shifted 
shift_to_msb_equ—l shift 一 a (a—temp24,a—frac24,shamt—a); 
shift_to_msb—equ—l shift_b (b_temp24,b—frac24,shamt—t)); 
wire [9:0] explO = exp—10 — shamt 一 a + shamt 一 b; 


以下代码实现围 9.20 中的三个流水线寄存器 reg-el ， reg_e2 和 reg_e3。 


reg el 一 sign,el_ae00,el_aeff,el_af00 f el 一 beOO,el—beff,el 一 bf00 

reg e2_sign # e2_ae00,e2 一 aeff,e2—af00,e2_be00 f e2_beff f e2 一 bf00 

reg e3_sign,e3—ae00,e3—aeff,e3 一 af00,e3—beOO,e3_beff,e3—bf00 

reg [1:0] el_rm,e2_rm,e3_rm; 

reg [9:0] el 一 explO,e2_expl0,e3_expl0; 

always @ (negedge resetn or posedge clock) 


if (resetn == 0) begin 
// reg 一 el 
el 一 sign <= 0; 
el_rm <= 0; 
el_expl0 <= 0; 
el_ae00 <= 0; 
el_aeff <= 0; 
el_af00 <= 0; 
el 一 beOO <= 0; 
el 一 beff <= 0; 
el bf00 <= 0; 


// pipeline registers 

// reg 一 e2 
e2_sign <= 0;. 
e2_rm <= 0; 
e2_expl0 <= 0; 
e2_ae00 <= 0; 

e2_aeff <= 0; 
e2_af00 <= 0; 

e2 一 beOO <= 0; 
e2_beff <= 0; 
e2 bf00 <= 0; 


// reg—e3 
e3_sign <= 0 
e3_rm <= 0 
e3—explO <= 0 
e3_ae00 <= 0 

e3_aeff <= 0 
e3_af00 <= 0 

e3_be00 <= 0 

e3 一 beff <= 0 
e3_bf00 <= 0 


end else if (enable) begin 

el 一 sign <= sign; e2—sign <= el—sign; e3—sign <= e2 一 sign; 

el_rm <= rm; e2_rm <= el—rm; e3—rm <= e2_rm; 

el 一 explO <= explO; e2_expl0 <= el 一 explO; e3_expl0 <= e2—explO; 

el 一 aeOO <= a 一 expo 一 is 一 00; e2_ae00 <= el 一 aeOO; e3_ae00 <= e2_aeOO; 

el_aeff <= a 一 expo 一 is 一 ff; e2 一 aeff <= el_aeff; e3_aeff <= e2_aeff; 

el_af00 <= a—frac_is—00; e2_af00 <= el_af00; e3_af00 <= e2_af00; 

el 一 beOO <= b_expo 一 is 一 00; e2 一 beOO <= el 一 beOO; e3_be00 <= e2_be00; 

el 一 beff <= b_expo_is_ff; e2—beff <= el_beff; e3_beff <= e2 一 beff; 

el 一 bfOO <= b 一 frac 一 is 一 00; e2 一 bfOO <= el_bf00; e3—bf00 <= e2—bf00; 


end 
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有了规格化的尾数，我们可以调用 Newto n -Raphso n 24 位除法模块了。返回的 
结果为尾数相除的商，用 31 位表示。如果浮点数 a 的尾数大于或等于 b 的尾数，则 

商有 1 .XXXXX* • -X 的格式；否则为 O . lxxxx * • -Xo 我们把它们统 一 成 1.XXXXX* • -X 的格 

式。当然，如果原来是 O . lxxxx * • * x , 要从结果的阶码中减 1。 

newton24 frac_newton (a_frac24 # b 一 frac24,fdiv,enable,clock,resetn, 

q,busy,count,reg—x,stall); 

wire [31:00] q; // af24/bf24 = 1.xxxxx.•.x or 0.lxxxx••.x 

wire [31:0] zO = q[31] ? q : {q[30:0],1’bO}; // 1.xxxxx...x 

wire [9:0] exp_adj = q 【 31] ? e3_expl0 : e3_expl0 一 10’bl; // reg_e3 

以下代码对阶码和尾数做进一步的调整，这是因为结果可能为非规格化数或者 
为无穷大。注意这部分代码虽然使用了 always 语句，但由于在所有的条件下，两个 
变量均有赋值，生成的电路还是组合电路。 

reg [9:0] expO; 

reg [31:0] fracO; 

always @ * begin 

if (exp 一 adj[9]) begin // exp is negative 
expO = 0; 

if (zO[31]) // 1.xx...x exp 一 adj = minus 

fracO = zO >> 《 10'bl - exp—adj); // den (-126) 
else fracO = 0; 

end else if (exp—adj == 0) begin // exp is 0 

expO = 0; 

fracO = {I ， b0,z0[31:2],|z0[l:0】}; // den (-126) 
end else begin // exp > 0 

if (exp—adj’> 254) begin // inf 
expO = 10 f hff; 
fracO = 0; 

end else begin // normal 

expO = exp — adj; 
fracO = zO; 

end 

end 

end 

现在根据舍人方式 （ rm) 对尾数进行舍入。首先把 32 位尾数变成 26 位，最低 3 
位为 GRS 。 舍入方法与浮点加法相同。 

wire [26:0] frac = {fracO[31 : 6] / |fracO[5:0]}; // sticky 
wire frac__plus 一 1 = // reg 一 e3 

~e3_rm[l] & 'e3_rm[0] & frac[3] & frac[2] & ~frac[l] & "frac[0] | 

"e3_rm[1] & *e3_rm[0] & frac[2] & (frac[1] | frac[0]) | 

~e3_rm[l] & e3_rm 【 0】 & (frac[2] | frac[1] | frac[0】）& e3 — sign | 

e3_rm[1] & _e3_rm[0】 & (frac[2】| frac[1] | frac[0】） & ‘e3_sign; 

wire [24:0] frac 一 round = {1’bO,frac[26: 3】 } + frac_plus — 1; 
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wire [9:0] expl 




frac—round[24 】？ expo + 10 f hi : expO 


wire 


overflow 




(expl >= 10 / hOff); // overflow 


调用 function 对特殊浮点数进行处理 


wire [7:0 】 exponent; 
wire [22:0] fraction; 

assign {exponent,fraction}=final_result(overflow ， e3_rm,e3 一 sign ， e3_ae00, 
e3 一 aeff,e3—afOO,e3 一 beOO,e3 一 beff f e3 一 bf00,{expl[7:0] r frac_round[22:0]}); 


assign s 




{e3 一 sign,exponent,fraction}; 


下面的 ftmction 处理上溢和特殊浮点数。对特殊浮点数的处理，浮点除法比起 
浮点加法和浮点乘法要复杂得多，好在我们有 casex 可用 ( casex 算是一个好东西)。 


function [30:0] final 一 result ; 
input overflow; 
input [1:0 】 e3_rm; 
input e3 — sign; 

input a_e00,a 一 eff,a_f00, b — eOO,b 一 eff f b_f00; 
input [30:0] calc; 

casex ({overflow,e3_rm,e3_sign,a_e00,eff,a 一 f00,b 一 eOO,b_eff,b 一 f00}) 


10 f blOOx xxx xxx : final_result 


10 f blOlO 一 xxx 一 xxx 
10 f blOl1 一 xxx—xxx 
10 f bl100 一 xxx—xxx 
10^bl101_xxx_xxx 
10 f blllx 一 xxx—xxx 
10 / bOxxx 010 xxx 



final—result 
final result 


final 

final 


final—result 
final result 



10 r bOxxx 一 Oil 一 010 : final 一 result 
10 〃 bOxxx 一 100 一 010 : final 一 result 
10 〃 bOxxx—101—010 : final 一 result 
10 f bOxxx 一 OOx 一 010 : final 一 result 
10 f b0xxx_011_011 : final—result 
10 f bOxxx 一 100 一 Oil : final 一 result 
10 f bOxxx—101 一 011 : final_result 
10 f bOxxx 一 OOx 一 Oil : final—result 
10 f bOxxx 一 011_101 : final_result 
10 f bOxxx—100 一 101 : final 一 result 
10 f bOxxx 一 101 一 101 : final 一 result 
10 f bOxxx—OOx 一 101 : final 一 result 
10 f bOxxx 一 011 一 100 : final 一 result 
10 f bOxxx 一 100 一 100 : final 一 result 
10 f bOxxx 一 101 一 100 : final 一 result 
10 f bOxxx 一 OOx 一 100 : final 一 result 
10 f bOxxx 一 01l_00x : final_result 
10 f bOxxx 一 100 一 OOx : final 一 result 
10 # bOxxx 一 101_00x : final_result 
10^ bOxxx 00x_00x : final_result 




































INF 

MAX 

INF 

INF 

MAX 

MAX 

NaN 

NaN 




NaN 

NaN 


INF 

INF 

NaN 

INF 

INF 


INF 


// overflow 
// overflow 
// overflow 
// overflow 
// overflow 
// overflow 
// NaN / any 
// inf / NaN 
// den / NaN 


// 


0 / NaN 


// normal / NaN 
// inf / inf 


ZERO; // den / inf 


ZERO; // 


0 / inf 


ZERO; // normal / inf 


// inf / 0 
// den / 0 


// 


0/0 


// normal / 0 
// inf / den 


calc; // den / den 


ZERO; // 


0 / den 


calc; // normal / den 


// inf / normal 


calc; // den / normal 


ZERO; // 


0 / normal 


calc; // normal / normal 


default 


final result 


NaN 
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endcase 
endfunction 
endmodule 

以下模块把尾数左移，使其最高位为 1 ，同时记录左移位数。 

module shift__to_msb_equ_l (a,b,shamt) ; 

input [23:00] a; // shift a=xx...x to b=lx...x 
output [23 : 00] b; // lx...x 

output [4:0] shamt; // how many bits shifted 
wire [23:0] a5,a4,a3,a2,al,aO; 

assign a5 = a; 

assign shamt[4] = ^|a5[23:08]; // 16 - bit 0 

assign a4 = shamt[4]? {a5[07: 00 】 ， 16’bO} : a5; 
assign shamt[3] = ~|a4[23:16 】； // 8-bit 0 

assign a3 = shamt[3]? {a4[15:00 ], 8 f bO} : a4; 
assign shamt[2] = "|a3[23:20]; // 4-bit 0 

assign a2 = shamt[2]? {a3[19:00 ], 4 f bO} : a3; 
assign shamt[1] = ~|a2[23:22]; // 2-bit 0 

assign al = shamt[1]? {a2[21:00], 2 f bO} : a2; 
assign shamt[0] = ~a1 [23]; // 1-bit 0 

assign aO = shamt[0]? {al[22:00 ], l f bO} : al; 
assign b = aO; 
endmodule 

a 【 23:0 】 b 【 23:0 】 


ite.clock 


clock 


阁 9.22 Newton-Raphson 除法器 • 

以下模块完成 24 位 Newton - Raphson 除法，它与32位的版本类似，不同之处是 
最后的乘法用流水线方式实现（见图 9.22) 以及使用了系统时钟信号。图 9.22 中的 
reg _ m 和 reg _ qS 两级流水线寄存器。迭代完成后，立即进行部分积的运算并把结果 
打入 reg _ m 寄存器， 
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module newton24 (a,b,fdiv,enable,clock,resetn, q, busy ， count/reg_x ， 

stall); 

input [23:00] a; // dividend: fraction : .lxxx...x 

input [23:00] b; // divisor : fraction : .lxxx...x 

input fdiv; // ID stage: i_fdiv 

input enable,clock,resetn; 

output [31:00] q; // a/b: x.xxxxx.•.x 

output busy; // cannot receive new div 

output [4:0] count; // for sim test only 

output [25:00] reg—x; // for sim test only 01.xx...x 

output stall; // for pipeline stall 

reg [31:00] q; // a/b: x.xxxxx...x 

reg [25:00] reg—x; // 26-bit : xx.xxxxx...xx 

reg [23:00] reg_a; // 24-bit : .lxxxx...xx 

reg [23:00] reg—b; // 24-bit: .lxxxx...xx 

reg [4:0] count; // 3 iterations 

reg busy; 

初始值 xo 通过査 ROM 表得到，用一个时钟周期。由于除数的最高位为 1 ,访 
问 ROM 时没有必要使用它，但计算表中的内容时不能忘了它。当 start 信号有效时， 
我们对寄存器赋初值。与我们在第 3 章介绍的 32 位版本不同，我们这里使用了实际 
的时钟周期进行计数，而不是对迭代次数进行计数。计数器值为 0 时表示指令处在 
ID 级。如果当前指令是浮点除法且计数器值为 0, 把计数器设为 1 ，并令 busy 信号 
也为 1 。在下一个时钟上升沿处，把数据 xo ， a 和 b 分别打入寄存器 reg_x ， reg_a 和 
reg.bo Newton-Raphson 的迭代公式为 Xi + 丨 =x;(2 — Xjb) 。 一次迭代用 5 个时钟周 
期： 两次乘法用 4 个周期， 一 次减法用一个周期。在计算过程中，当计数值为 6, 11 
和 16 时，我们修改寄存器 Xi 的内容 (3 次迭代 ) 。当计数器为 15 时，清除 busy 。 当计 
数器为 16 时，清零，以允许下一条指令的执行。当 x 3 计算出之后，下一个周期使用 
Wallace 树型乘法算法计算出部分积的和 m_s 与进位 m_c ， 并把它们保存在 reg_m 寄 
存器。 

wire [7:0] x0 = rom(b[22 : 19]); 

always @ (posedge clock or negedge resetn) begin 

if (resetn == 0) begin 

count <= 5^ bO; // reset count 

busy <= 1 f bO; // reset to not busy 

end else begin // not reset 

if (fdiv & (count == 0)) begin // do once only 
count <- 5 f bl; // set count 

busy <= 1 # bl; // set to busy 

end else begin // execution : 3 iterations 

if (count == 5 f hOl) begin 

reg—x <= {2’bl,xO,16’bO}; // 01.xxxxO..•0 
reg 一 a <= a; // .lxxxx. "x 
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reg 一 b <= b; // .lxxxx...x 

end 

if (count != 0) count <= count + 5 f bl; // count++ 
if (count == 5 ， h0f) busy <= 0; // ready for next 

if (count == 5'hlO) count <= 5 f bO; // reset count 

if ( (count == 5 f h06) | | 

(count == hOb) || 

(count == hlO)) 

reg 一 x <= x52[50:25]; // xx.xxxxx...x 

end 

end 

end 

我们使用简单的暂停流水线的方法等待浮点除法指令的执行。下面的 stall 信号 
为 1 时，流水线暂停。我们希望它的波形如图 9.23 所示，因此我们产生暂停流水线 
的信号 stall 如下： 

assign stall = fdiv & (count == 0) | busy; 


x 0 


1st iteration 


2nd iteration 


3rd iteration 


mul normalization 


div.s 


IF I ID 


10 I 11 I 12 I 13 I 14 I IS I 16 I 17 I 18 I 19 


rairg 


stall 




E3 







stall 



count 




阁 9.23 浮点除法指令暂停流水线的信号 stall 的产生 


以下代码实现 x i+1 = x ,(2_ Xi b )。 注意该处的减法实际上是求补码的运算，我 
们这里用了取反加 1 来实现减法。乘法用 Wallace 树型算法实现。代码太长，不再列 
岀。读者可以参照第 3 章的 8 位 Wallace 树型乘法算法源代码和本章 24 位 Wallace 树 
型乘法器结构（见图 9.15 〜图 9.17 ) f 书写 wallace _ tree 24 x 26 模块。 


wire [49:00] bxi; 
wire [51:00] x52; 

wallace—tree26x24 bxxi (reg_x,reg 一 b,bxi); 
wire [25:00] b26 = ^bxi[48:23] + l ， bl; 
wallace_tree26x26 xipl (reg—x,b26,x52); 


// xx.xxxxx...x 
// xxx.xxxxx...x 
// bxi=reg—x*reg — b 
// x.xxxxx...x 
// x52=reg—x*b26 


如果 3 次迭代完成，我们用一次乘法 (a x x 3 ) 计算岀 32 位的商。乘法用 Wallace 
树型算法及流水线方式实现，即在部分积和加法器之间加了一个流水线寄存器。两 
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级流水线寄存器 regjii 和 reg_q 分别存放部分积 (ni_s 和 m.c) 和相加的结果 （ e2p )。 我 
们这里没有对商进行舍入，因为舍入在规格化阶段进行。 

wire [48:0] m_s; // 41 + 8 = 4 9-bit 
wire [41:0] m 一 c; // 42-bit 

wallace24x26 一 mul wt (reg 一 a,reg_x,m_s[48:8],m_c,m_s[7:0]); 

reg [48:0] a_s; // 41-bit 

reg [41:0 】 a_c; // 42-bit 

always @ (negedge resetn or posedge clock) 

if (resetn == 0) begin // registers : reg 一 m and reg—q 
a_s <= 0; // reg 一 m 
a_c <= 0; // reg 一 m 

q <= 0; // reg 一 q 

end else if (enable) begin 

a—s <= m—s; // save partial product sum 

a_c <= m 一 c; // save partial product carry 

q <= e2p; 

end 

wire [49:00] d_x = {2/b0,a — s} + {a—c,8'b0}; // Ox.xxxxx. . .x 
wire [31:00] e2p = {d 一 x[48:18 】 ， |d_x[17:0]}; // sticky 

以下是 ROM 表，存放 xo 。 最高位的 1 没有存放在表中，在赋初值时别忘了加 
上。虽然我们给岀了 8 位初值，加上省略的 1 共 9 位，但地址位只用了 4 位，实际上 
这是不够的，或者说 9 位结果是不精确的。 

function [7:0] rom; 
input [3:0] b; 
case (b) 


4^0: 

rom = 

8 f hf0; 

4 f hi: 

rom = 

8 f hd4 

4 f h2: 

rom = 

8 f hba; 

4 f h3: 

rom = 

8 f ha4 

4 f h4: 

rom = 

8 f h8f; 

4 f h5: 

rom = 

8 f h7d 

4 〃 h6: 

rom = 

h6c; 

A f hl: 

rom = 

8 f h5c 

4 f h8: 

rom = 

8 f Me; 

4 f h9: 

rom = 

8 f h41 

4 f ha: 

rom = 

8 ， h35; 

4 / hb: 

rom = 

8 f h29 

4 7 he: 

rom = 

hlf; 

4 f hd: 

rom = 

8 f hl5 

4 f he: 

rom = 

8 ， h0c; 

4〃hf •• 

rom = 

8404 


endcase 
endfunction 
endmodule 

浮点除法总共需要 19 个 周期： 査表用一个周期，3次迭代15个，最后的乘法两 
个，规格化一个。但浮点除法指令的发出只需隔16个周期，因为最后的三个周期使 
用流水线方式。图 9.24 是仿真结果，第一部分是4.0/2.0 = 2.0。第二部分是非规格化 
数除以非规格化数，结果为规格化数。还有很多其他的情况需要仿真，我们不在这 
里 一一 给出。读者可以写一个 C 语言程序测试 x 86 浮点除法的结果，尤其是特殊数 
据的除法结果，并与仿真结果进行比较。 
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01 I 02 | 03 | 04 | 05 | 06 I 07 | 08 | 09 | 10 | 


| x 0 
ID stall 


1st iteration 


iteration 


11 12 I 13 I 14 I 15 I 16 17 I 18 19 

3rd iteration mul nor 


normalizalion 


El I E2 I E3 


二丨 clock 

» a 
» b 

二 .fdiv 
•O busy 
• stall 
•O count 
HS> reg_x 

必 s 



41000000 

40800000 









mvjyM 


1F00000 


1FF8000 




1FFFFE0 


j 00 

1FFFFFF 


3FF80000 


3FFFC000 


3FFFFFF0 


movyyj] 



OOOOFEQ1 

OOOOOOFF 







oo 


104000 


100F810 


1010101 




4380F 


CS2 

m^TW 細 mm m i 


437EF721 


437FOOOO 


阁 9.24 Newton-Raphson 浮点除法器仿真结果 


9.6 


浮点开方器 FSQRT 设计 


本节首先讨论浮点开方算法，然后给出用 Newton - Raphson 算法设计的浮点开方 
电路的 Verilog HDL 源代码。 

9.6.1 浮点开方算法 


浮点开方算法最简单，因为它只有一个操作数并且结果朝 1.0 的方向走。设 
d = { s d ， e d ， f d } 为 IEEE 754 单精度浮点数，试计算 q = { s q ， e q ， f q } = >/5。只考虑 d 
为正数的情况，为负时结果是 NaN 。 

首先假设 d 是一个规格化数，结果应为 x /2^-127 x !. fdo 我们采用 Newton - 
Raphson 算法实现浮点开方电路，因此必须把 l . fd 变成 O . lxx . • . x 或 O . Olx . • * x 的格 
式，即把 l . f d 右移一位或两位。开方后的格式为 0.1 xx 〃* x ， 再将其左移一位，变为 
l . f q 的标准格式，阶码同时减1。我们分两种情况考査 x /2^-' 27 X l . f d ： 

1) 如果 e d - 127为偶数，即 e d 为奇数，右移 l . f d 两位， l . f q = x / l . f d »2 « 1, 

Cq = (cd 一 127 + 2)/2 +127 — 1 = e<j>> 1 + 63 + C(j % 2 ； 

2) 如果 e d - 127为奇数，即 e d 为偶数，右移 l . f d —位， l . f q = >/ l . fd»l «U 

eq = (ed _ 127+ 1)/2 + 127 _ 1 = ed>>l + 63 + % 2 o 
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虽然以上两种情况 e d 的奇偶制度不同，但我们用公式 e q = e d »l + 63 + e d %2 
实现了 e q 的和平统一，方法是右移出去的 e d 的最低位别丢，加回去。以下给岀 
一个求规格化数平方根的例子。假设我们有一个用十六进制表示的单精度浮点数 
d = 41100000,6,试计算它的平方根。把41100000 16 写成二进制格式 格式： 


4110000016 = ()• 10000010_001000000000000000000002， 

即 S d = 0， e d = 10000010 2 = 130 10 , f d = 00100000000000000000000 2 。它的十进制 
数值为2 130 - 127 x 1 .00 1000000000000000000002 = 2 3 X 1.001 2 = 1001 2 = 9 i 0 o 我们 
知道它的平方根是 q = 3 io = II2 = 1」2 X 2 1 = I . I2 X 2 128 - 127 ,即 Sq = 0， e q = 
1 OOOOOOO2 , f q = 1 OOOOOOOOOOOOOOOOOOOOOO2 ,用十六进制表示为40400000 16 。 


按照前面给出的算法，我们知道 e d = 10000010 2 = 130 1() 是偶数，因此把 l.f d 
右移一位，变为 0.1001 2 。 然后用 Newton-Raphson 算法求它的平方根，得到 (Ul 2 , 


再左移一位，变为 


l.fqo 


e q 




ed >> 1 + 63 + ed % 2 = 65 + 63 + 0 = 128 


o 


我们得到了平方根 q = 40400000 , 6o 

如果 d 是一个 IEEE 754 非规格化数，为了求出 e q * f q , 我们首先把 0. f d 左移偶 
数位，使其有 O . lxfx 或 0.01 x _〃 x 的格式。假设移位位数为 b (偶数)。对移位后的 
数据开方，结果为 ( UXX ." X , 再将其左移一位，变为 l . f q 的标准格式。结果的阶码 


e q = (-126 - b )/2 - 1 + 127 = 63 — b /2。 

以下再给出一个求非规格化数平方根的例子。假设我们有一个用十六进制表示 


的单精度浮点数 d = 00003200 16 , 试计算它的平方根。把十六进制数00003200 16 写 
成二进制格式，我们有 


0000320016 = 0.00000000.000000000 110010000000002, 

即 Sd = 0, e d = OOOOOOOO2 = 0 10 , f d = 00000000011001000000000 2 。它的十进制数 
值为 2— 126 X 0.0000000001 10010000000002 = 2- 126 X 11001 2 X 2_ 14 = 2— 140 x 25 10o 

我们知道它的平方根是 q = 2- 70 X 5io = 2- 70 X 101 2 = 2 一 68 X 1.01 2 = 2 59 - 127 X 
1.01 2 , 即 Sq = 0, e q = OOIIIOII2, fq = 0 1 OOOOOOOOOOOOOOOOOOOOO2 , 用十六进制 
表示为 1 DA 0000016 O 

按照前面给出的算法，把 0. f d = 0.0000000001 1001000000000 2 左移8位（偶 
数)，变为 0.0 U 001000000000000000002。然后用 Newton-Raphson 算法求它的平方 
根，得到0.101 2 ,再左移一位，变为1.01 2 = l.fqo e q = 63 — 8/2 = 59。我们得到 
了平方根9 = 1 DA 00000 I6 o 

规格化数和非规格化数的平方根均为规格化数，因此在规格化阶段只完成舍 

人操作。最后讨论几种特殊的 运算： （1) 如果 Sd = 1，即 d 为负，则开方结果为 
NaN ； (2) y / +00 = + 00 ; (3) \/NaN = NaN 0 


9.6.2 Newton-Raphson 浮点开方器 Verilog HDL 代码 


Newton - Raphson 开方算法已在第 3 章中给出，它包括两部分 操作： （1) 迭代操 
作： Xj+i = Xi (3 — xfd )/2; (2) 平方根的 计算 ： q = d X x n 。 
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Newton-Raphson 浮点开方电路的总体结构如图 9.25 所不。为/向浮点乘法流水 
线靠近，我们在计算 X i+1 = Xi (3 — xM )/2 时暂停流水线，而在计算结果 dxx n 时启 
动流水线。 



stall 


enable 

clock 


ID ( 牛顿迭代 ) 


s 


部分积 


相加 


规格化 


图 9.25 浮点开方电路的总体模块图 


图 9.26 是 Newton-Raphson 浮点开方器的流水线示意图。査表得出 xo 用一个周 
期，3次牛顿迭代用21个周期。这22个周期由 stall 信号暂停流水线。然后是两个周 
期的乘法和一个周期的规格化。这部分与浮点乘法器类似，用流水线方式实现。将 
在下面描述如何产生 stall 信号。 


Xol 


1st iteration 


2nd iteration 


3rd iteration 


mul I normalization 


sqrt.s UFlIDl 1|2|3|4|5|6|7U1 9 110l 11112| 13| 14| 1S| 16| I7l 18| 19|20|21 l22l23l24l25|\M 


IFllDstall 


clock 

stall 





图 9.26 浮点开方指令的流水线 

_ 

以下是 Newton-Raphson 浮点开方器的 Verilog HDL 代码。 

module fsqrt 一 newton (d,rm,fsqrt,enable,clock,resetn, 

s,busy,stall,count, reg_x); 
input [31:0] d; // fp q = root(d) 

input [1:0] rm; // round mode 

input fsqrt; // ID stage : fsqrt = i—fsqrt 

input enable,clock,resetn; // enable 

output [31:0] s; // fp output 
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output busy; // for generating stall 

output stall; // for pipeline stall 

output [4:0] count; // for iteration control 

output [25:00] reg—x; // x 一 i 

parameter ZERO = 31 / hOOOOOOOO; 

parameter INF = 31 f h7f800000; 

parameter NaN = 33/h7fC00000; 

parameter MAX = 31 f h7f7fffff; 

以下代码将被用来确定结果是否为特殊浮点数。 

wire d 一 expo 一 is— 00 = ~| d[ 30: 23] ; // d 一 expo = 00 

wire d 一 expo 一 is_ff = &d[30 : 23]; // d 一 expo = ff 

wire d—frac_is—00 = ~|d[22:0] ; // d 一 frac = 00 

wire sign = d[31]; 

现在计算临时阶码 exp _8 = ed»l + 63 + e<i % 2 及 24 位 tt 时尾数 d _ temp 24。 注 
意，我们这里假定这全部 24 位已经是小数了，即小数点存在于这24位的最左端。 
我们根据阶码是奇数还是偶数把尾数右移一位或0位。如果输入的浮点数是规格化 
数，则它的格式为 O . lxx * • * x 或 O . Olx * • * x 。 

wire [7:0] exp_8 = { 1 ， bO,d[30:24]} + 8 ， h3f + d[23]; 

wire [23:0] d_f24 = d_expo_is_00? {d[22:0], 1 ， bO}:{ 1 ， bl,d[22:0]}; 

wire [23:0] d_temp24 = d[23]? { 1 ， bO,d 一 f24[23:1]}:d 一 f24; // .01 

如果输入的浮点数是非规格化数，我们还要把 d _ temp 24 左移偶数位，使它具 
有 O . lxx . • . x 或 O . Olx . • . x 的格式。这项工作由 shift .even . bits 模块完成。我们还要从 

阶码值中减去移位位数。此时得到的数据有 两个： 8位的阶码 expO 和24位的尾数 
d _ frac 24。 

wire [23:0] d_frac24 ; // to lxx...x for den 

wire [4:0] shamt_d; // how many bits shifted 

shift—even 一 bits shift 一 d (d—temp24,d—frac24,shamt—d); 
wire [7:0] expO = exp—8 - {4 f hO,shamt—d[4:1]}; 

以下代码实现图 9.25 中的三个流水线寄存器 reg _ el , reg _ e 2 和 reg _ e 3。 

reg el—sign,el—e00,el 一 eff,el 一 f00; 

reg e2 一 sign,e2 一 eOO,e2_eff # e2 一 f00; 

reg e3—sign, e3 一 eOO, e3__ef f 9 e3_f 00; 

reg [1:0] el—rm,e2—rm,e3_rm; 

reg [7:0] el 一 exp,e2 一 exp,e3—exp; 

always @ (negedge resetn or posedge clock) 

if (resetn == 0) begin // pipeline registers 

// reg 一 el // reg 一 e2 // reg 一 e3 


el_ 

•sign 

<= 

0; 

e2 

MB 

.sign 

<= 

0； 

e3. 

.sign 

<= 

0; 

el. 

_rm 

<= 

0; 

e2. 

_rm 

<= 

0； 

e3. 

_rm 

<* 

0； 

el. 

.exp 

<= 

0; 

e2. 

.exp 

<= 

0； 

e3. 

.exp 

<= 

0； 
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el_ 

.e00 

<= 

0; 

e2_ 

■eOO 

< = 

0 ； 

e3_ 

_e00 <= 

0; 

el. 

■eff 

<= 

0; 

e2_ 

_eff 

<= 

0 ； 

e3_ 

_eff <= 

0 ； 

el. 

_f00 

<= 

0; 

e2. 

_f00 

< = 

0 ； 

e3. 

_f00 <= 

0 ； 


end else if (enable) begin 

el—sign <= sign; e2 一 sign <= el 一 sign; e3 一 sign <= e2_sign; 

el_rm <= rm; e2 一 rm <= el_rm; e3_rm <= e2_rm; 

el 一 exp <= expO; e2 一 exp <= el_exp; e3—exp <= e2_exp; 

el — eOO <= d 一 expo 一 is — 00; e2_e00 <= el_e00; e3 一 eOO <= e2 一 eOO; 

el_eff <= d—expo 一 is — ff; e2—eff <= el 一 eff; e3_eff <= e2 一 eff; 

el 一 fOO <= d—frac—is 一 00; e2 一 fOO <= el 一 fOO; e3—f00 <= e2_f00; 

end 

以下代码由 root _ newton 24 模块求尾数的 32 位平方根 fracO , 小数点在它的左 
端。然后我们把它整理成27位的 frac = O . lx *. - xGRSo 注意 frac 中不包括整数部分 
的0,小数部分的最左位1将成为隐藏位而被扔掉。 

root_newton24 frac—newton (d—frac24,fsqrt,enable,clock,resetn, 

fracO,busy,count,reg 一 x,stall); 
wire [31:00] fracO; // root = 1.xxxx...x 

wire [26:0] frac = {fracO 【 31: 6 】 ， |fracO[5:0 】 }; // sticky 

以下代码对尾数进行舍入，并根据舍入情况调整阶码。得到的结果是8位的阶 
码 e 和23位的去掉了隐藏位的尾数 f 。 阶码不会大于254,上溢判断似乎没有必要。 

wire frac_plus 一 1 = // reg 一 e3 

~e3_rm[ 1 ] & ~e3_rm[0] & frac[3] & frac[2] & ’frac[l】 & 'frac[0] | 

~e3—rm[l] & ~e3 一 rm[0】 & frac[2] & (frac[1] | frac[0] ) | 

~e3_rm[1] & e3_rm[0] & (frac[2] | frac[1] | frac[0]) & e3—sign | 

e3_rm[ 1 ] & **e3_rm[0] & (frac [2] | frac [ 1 ] | frac [0] ) & ~e3—sign; 

wire [24:0] frac—round = {1/bO,frac 【 26 :3]} + frac_plus_l; 
wire [7:0] expl = frac 一 round[24]? e3—exp + 8’hl : e3—exp; 
wire overflow = (expl >= 10 # hOff); // overflow 

我们还要对输入的特殊浮点数进行处理，这部分工作由函数 final result 完成。 

由此我们得到最后结果 s 。 

wire [7:0] exponent; 
wire 【 22:0] fraction; 

assign {exponent,fraction} = final 一 result(overflow,e3—rm,e3—sign, 

e3 一 sign,e3—e00,e3 一 eff,e3 一 f00,{expl[7:0],frac 一 round[22:0]}); 
assign s = {e3 一 sign,exponent,fraction}; // reg 一 e3 

函数 final _ res U lt 对特殊浮点数进行处理。处理结果有4种 可能： 无穷大，0, NaN 
或者计算出的结果。上溢不会出现，相关代码可以删除。 

function [30:0] final—result ; 

input overflow; 

input [1:0] e3_rm; • 

input e3_sign; 
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input d 一 sign, d_e00 , d 一 ef f, d 一 f 00; 
input [30:0] calc; 

casex ({overflow,e3 一 rm,e3 一 sign,d_sign f d 一 e00 f d 一 eff ， d_f00}) 


bl00x_xxxx 
8 # blOlO—xxxx 
blOll—xxxx 
8 f bllOO 一 xxxx 
8 f bllOl—xxxx 
8 f blllx 一 xxxx 
b0xxx」xxx 
8 f bOxxx—0010 
’ bOxxx—0011 
8 f b0xxx_0101 
8 f bOxxx 一 OOOx 
8 f bOxxx 一 0100 
default 


endcase 

endfunction 


final—result 
final 一 result 
final—result 
final 一 result 
final 一 result 
final 一 result 
final 一 result 
final 一 result 
final 一 result 
final 一 result 
final_result 


final 


final result 












INF 

MAX 

INF 

INF 

MAX 

MAX 

NaN 

NaN 

INF 


// overflow 
// overflow 
// overflow 
// overflow 
// overflow 
// overflow 
// negative 
// nan 
// inf 





ZERO; "0 
calc; // normal 
calc; // den 
NaN; 


endmodule 


以下代码就是前面提到的 shifLeverubits 模块，专门应付非规格化浮点数。 


module shift—even_bits (a,b,shamt); 

input [23:00] a; // shift a=xxx...x to b=lxx...x or Olx...x 
output [23:00] b; // lx...x 

output [4:0] shamt; // how many bits shifted 
wire [23:0] a5,a4,a3,a2,al; 


assign 

assign 

assign 

assign 

assign 


assign 

assign 

assign 

assign 

assign 

assign 

endmodule 


a5 = a; 

shamt[4] = ~|a5[23:08]; 
a4 = shamt[4]? {a5[07:00] f 
shamt[3] = ~|a4[23:16]; 
a3 = shamt[3]? {a4 [15:00 ], 
shamt[2]= 〜 |a3[23:20]; 
a2 = shamt[2]? {a3 [19:00 ], 
shamt[1] = ^|a2 [23:22]; 
al = shamt[1]? {a2 [21:00] f 
shamt[0] = 0; 
b = al; 



// 

16-bit 

0 

16^0} 

: a5; 




// 

8-bit 

0 

8 f b0} 

: a4; 




// 

4-bit 

0 

4 f b0} 

: a3; 




// 

2 - bit 

0 

2 f b0} 

: a2; 




对 24 位尾数求平方根与我们在第 3 章描述的对32位小数求平方根的 Newton - 
Raphson 算法类似，不同之处是最后的乘法用流水线方式实现(见图 9.27) 以及使用了 
实际的时钟周期来计算何时出来最后结果。图 9.27 中的 reg _ m 和 reg _ q 是两级流水线 
寄存器。在迭代完成后，立即进行部分积的运算并把结果打入 r e g _ m 寄存器。 

module root—newton2 4 (d,fsqrt,enable,clock,resetn,q,busy,count, 

reg 一 x,stall}; 
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d[23:0] 


ite.clock 


clock 



q[31 ： 0] 


图 9.27 Newton-Raphson 开方也路 

input [23:00] d; // radicand : fraction : .lxxx...x or •Olxx...x 

input fsqrt; // ID stage : fsqrt = i—fsqrt 

input enable,clock,resetn; 


output [31:00] 

q; 

// 

root : 

.lxxx...X 

output 

busy; 

// 

cannot receive new div 

output 

stall; 

// 

stall to 

， save result 

output [4:0] 

count; 

// 

for sim 

test only 

output [25 : 00] 

reg—x; 

// 

for sim 

test only 01.xx...x 

reg [31:00] 

q; 

// 

root : 

.lxxx...X 

reg [23:00] 

reg—d; 

// 

24-bit : 

.XXXX...XX 

reg [25:00] 

reg_x; 

// 

26-bit: 

XX.lxxx...XX 

reg [4:0] 

count; 

// 

3 iterations 

reg 

busy; 





初始值 XO 通过査 ROM 表得到。当 start 信号有效时，我们对寄存器赋初值。与 
我们在第3章介绍的32位版本不同，我们这里使用了实际的时钟周期进行计数，而 
不是对迭代次数进行计数。 Newton-Raphson 的迭代公式为 Xj+i = Xi(3 — xfd )/2。 当 
x 3 计算出之后，下一个周期使用 Wallace 树型乘法算法计算出部分积的和 m_s 与进位 
m _ c , 并把它们保存在 regJti 寄存器中。一次迭代用7个时钟 周期： 三次乘法用6个 
周期， 一 次减法用一个周期。在计算过程中，当计数值为8, 15和22时，我们修改 
寄存器 Xi 的内容 (3 次迭代)。迭代完成后还要两个周期实现 d x x 3 。 最后的规格化还 
要一个周期，总共需要25个周期。 

wire [7:0] x0 = rom(d[23 : 19]); 

always @ (posedge clock or negedge resetn) begin 

if (resetn == 0) begin 
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count <= 5 f b0; // reset count 
busy <= 0; // reset to not busy 

end else begin // not reset 

if (fsqrt & (count == 0)) begin // do once only 

count <= bl; // set count 

busy <= l f bl; // set to busy 

end else begin // execution : 3 iterations 


if 

(count 

—— 

5 f hOl) 

begin 





reg 一 x 

<= 

{2 ， bl, 

x0 f 16 # b0}; // 

01 

.xxxxO.•.0 


reg_d 

<= 

d ； 


// 


.lxxxx...X 

end 








if 

(count 

i =• 
• 

0) count <= 

count + 

bl; // count + + 

if 

(count 

== 

hl5) 

busy 

<= 0; 

// 

ready for next 

if 

(count 

== 

5^16) 

count 

<= 5 f bO; 

// reset count 

if 

((count 

== 

5 f h08) 

II 





(count == 5 f hOf) || 

(count == 5 f hl6)) 

reg 一 x <= x52[50:25]; // /2 = xx.xxxxx...x 


end 

end 

end 

我们使用简单的暂停流水线的方法等待浮点开方指令的执行。下面的 stall 信号 
为1时，流水线暂停。我们希望它的波形如图 9.28 所示，因此我们产生暂停流水线 
的信号 stall 如下： 

assign stall = fsqrt & (count == 0) | busy; 


xol 


1st iteration 


2nd iteration 


3rd iteration 


I mul I normalization 



以下代码实现 Xi+i = Xj (3 — xfd )/2 0 

wire [51:00] x 一 2; 
wire [51:00] x2d; 
wire [51:00] x52; 


乘法用 Wallace 树塑算法实现。 

// XXXX•XXXXX... X 
// XXXX•XXXXX•••X 
// XXXX•XXXXX...X 
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Wallace 一 tree26x26 x2 (reg — x,reg_x,x_2); 

Wallace 一 tree24x28 xd (reg—d,x 一 2[51:24 】， x2d); 

wire [25:00] b26 = 26’h3000000 - x2d[49:24]; // xx.xxxxx...x 
Wallace 一 tree26x26 xipl (reg_x,b26,x52); 

如果 3 次迭代完成，我们用一次乘法 （d x X 3 ) 计算出32位的平方根。乘法用 
Wallace 树型算法及流水线方式实现，即在部分积和加法器之间加了一个流水线寄 
存器。两级流水线寄存器 reg _ m 和 reg _ q 分别存放部分积 ( m _ s 和 m _ c ) 和相加的结果 
( e 2 p ) 0 我们这里没有对商进行舍入，因为舍入在规格化阶段进行。 

wire [48:0] m—s; // 41 + 8 = 49-bit 
wire [41:0] m_c; // 42 - bit 

wallace24x26—mul wt (reg—d,reg—x,m 一 s[48:8] , m_c , m_s[7:0]); 

reg [48:0] a 一 s; // 41-bit 

reg [41:0] a 一 c; II 42-bit 

always @ (negedge resetn or posedge clock) 

if (resetn == 0) begin // registers : reg_m and reg—q 

a—s <= 0; // reg_m 

a 一 c <= 0; // reg—m 

q <= 0; // reg—q 

end else if (enable) begin 

a—s <= m—s; // save partial product sum 
a 一 c <= m 一 c; // save partial product carry 
q <= e2p; 

end 

wire [49:00] d 一 x = {l # b0,a_s} + {a_c f 8 f bO}; // Ox.xxxxx...x 
wire [31:00] e2p = {d 一 x[47:17 】 ， |d—x[16:0 】 }; // sticky 
function [7:0] rom; // 1/d"{1/2} 

input [4:0] d; 
case (d) 


5 f h08: 

rom = 

8 # hf0; 

5 f h09: 

rom = 

: 8 f hd5 

hOa: 

rom = 

8 f hbe; 

5 f hOb: 

rom = 

: 8 f hab 

5 # h0c: 

rom = 

•8 ， h99; * 

5 f h0d: 

rom = 

: 8 f h8a 

5 f h0e: 

rom = 

8 f h7c; 

5 f h0f: 

rom = 

: 8 ， h6f 

5 f hl0: 

rom = 

8 f h64; 

5^11: 

rom = 

= 8 f h5a 

5 f hl2: 

rom = 

8 f h50; 

5 f hl3: 

rom = 

: 8 # h47 

5 f hl4: 

rom = 

8 f h3f; 

5 f hl5: 

rom = 

: 8 f h38 

5416: 

rom = 

8 ， h31; 

5 f hl7: 

rom = 

: 8 f h2a 

5 ， hl8: 

rom = 

8 ， h24; 

5 f hl9: 

rom = 

= 8 f hie 

5 ， hla: 

rom = 

8 # hl9; 

5 f hlb: 

rom = 

: 8 f hl4 

5 ， hlc: 

rom = 

8 # h0f; 

5 f hid: 

rom = 

: 8 f hOa 

5 f hle: 

rom = 

8 ， h06; 

5 f hlf: 

rom = 

: 8 f h02 

default : rom 

= hff; 





endcase 

endfunction 


endmodule 
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浮点开方总共需要25个 周期： 查表用一个周期，3次迭代21个，最后的乘法 
两个，规格化一个。但浮点开方指令的发出只需隔22个周期，因为最后的三个周 
期使用流水线方式。开方运筧比除法运算多用了6个 周期： 3次迭代每次多用两 
个（多一次乘法)。图 9.29 给出了我们在本节开始处举的两个例子的仿真结果，即 
d = 41100000 i 6, s = 40400000)6 和 d = 00003200, 6 , s = 1 DA 00000 16o 


1 

2|3 丨 4 丨 5 丨 6 丨 7|8 

9 |l0|ll|l2|l3|l4|l5 

16|l7|l8|l9|20|21|22 

23|24 

x o 

1st iteration 

2nd iteration 

3rd iteration 

mul 


25 1 

normalization 


IF ID stall 


El E2 E3 


S3 

fmwm ，■ 

uu 

rmruiarmrumniuwmjinjwu 

injifinnimiij 

( 41100000 



1 l 


i : 

l 



賺:廳 :@: 膽 : 賴 : 麵 : 麵:礙 : a«K<D:(D:<K@( 

16^ i 00 

( 0000000 X 1500000 X 155S580 X 1555551 X 1 1555555 

( 00000000 X 403D0000 X 403FEE18 X 403FFFFE X 40400000 

^ CiOCk 

d 

IK fsqrt 

t 

HE> busy 

stall 

必 count < 

inrLrLnrLrLrLnjuumrumnjwumnj 

( 00003200 

“ 麝擊 >^ 

L 

rumnniui^ 

U 1 


) 二 — 

1 i i 

»» 

: 讎 : 咖 : 酸 : 酸 : 麵 : 麵:麵 : ❿ : 咖 : ❿ : ❿ :<D:(D: 

K _ _ _22_ 


HE> reg—x ( 1555555 X 1990000 ~ X 1999943 199999a 


•Os ( 40400000 X 1 D9FC400 X 1 D9FFFDE X 1DAOO0OO 


阁 9.29 Newton-Raphson 浮点开方仿真结果 


9.7 习题 

1. 本章给出的浮点数与整数之间的转换代码没有考虑舍人方式。试加入舍人方式 
信号 rm [ l :0]， 重新编写 VerilogHDL 代码。 

2. 试设计双精度浮点数与整数及单精度浮点数之间的转换电路。 

3. 试设计一个5级流水线的浮点加 法器： 阶码对齐用两级，计算用一级，规格化 
用两级。 


4. 试编写 24 位乘 26 位的 Wallace 树型乘法器的 Verilog HDL 代码。 

5. 手工编写 Wallace 树型乘法器的 Verilog HDL 代码似乎太头疼了。试用高级语言 
编写一个程序，自动生成 Verilog HDL 代码。被乘数和乘数的位数应该是变量 
(这个程序应该是一个很有用 T. 具，最好用 Script 语言编写，不用编译，比如 
Perl 或 Python )。 
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6. 试使用 Goldschmidt 算法设计浮点除法电路。 

7. 试使用 Goldschmidt 算法设计浮点开方电路。 

8. 试探讨实现流水线浮点除法及开方电路的可能性，即每个时钟周期能接收一条 
除法或开方指令。 



第 10 章带有 FPU 的流水线 CPU 及其 

Verilog HDL 设计 

本章描述带有 FPU 的流水线 CPU 的设计方法。浮点部件可执行的指令有加减 
乘除及开方。浮点乘法使用 Wallace 树型算法。浮点除法和开方使用 Newton-Raphson 
算法。由于流水线操作有数据相关的问题并且浮点运算指令所需的流水线级数不 
同，该 CPU 设计起来要比单纯的只有整数部件的流水线 CPU 复杂一些。 

我们在第8章的整数流水线 CPU 的基础上，增加浮点运算指令和浮点寄存器堆 
与存储器之间的数据传送指令。本章的重点是如何处理多个执行周期的浮点指令。 
我们给岀 CPU 的总体结构 ， Verilog HDL 代码以及 CPU 的仿真波形图。 

10.1 CPU/FPU 流水线模型 

本节我们首先简要介绍 CPU 可执行的与浮点操作有关的指令，然后介绍实现这 
些指令时所采用的流水线模型。 

10.1.1 CPU / FPU 可执行的指令 

CPU 可执行的指令共有27条，其中20条是整数指令，与第8章流水线 CPU 实 
现的指令相同。新加的指令有7 条： 浮点运算指令共有5条，它们是单精度的浮点 
加 add . s 、 浮点减 sub . s 、 浮点乘 mul . s 、 浮点除 div . s 和浮点开方 sqrt . s 。 另外的两条是 
从存储器取数据写入浮点寄存器堆的指令 lwcl 和把浮点寄存器堆的数据写人存储器 
的指令 swclo MIPS 把 FPU 称做协处理机1 (Coprocessor 1 ) ,因此在指令助记符中加 
了 cl 。 以下我们简要介绍新加的7条指令。浮点加减乘除指令具有相同的 格式： 

add.s/sub.s/mul.s/div.s fd, fs, ft # fd < 一- fs op ft; 

其中， fs 和 ft 是两个源操作数的浮点寄存器号， fd 是浮点目的寄存器号。三个寄存 
器号都用5位二进制数表示，这意味着浮点寄存器堆有2 5 = 32个浮点寄存器。我 
们用 fD , fl ,* H ， f 31 表示这32个寄存器。注意，整数寄存器堆中的 r 0 的内容永远是 
0,而浮点寄存器堆中的 fD 是一个普通的寄存器。浮点开方的指令格式 如下： 

sqrt.s fd, fs # fd < —— root (fs); 

其中的 fs 是源操作数的寄存器号， fd 是目的寄存器号。存储器访问指令 lwcl 和 swcl 
分别与 lw 和 SW 类似，它们的格式如下： 

lwcl ft, offset(rs) # ft < —— memory[rs + offset]; 
swcl ft, offset(rs) # memory[rs + offset] < —— ft; 
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指令 lwcl 从整数寄存器 rs 中读出32位数据，与符号扩展的 offset 相加，得到的结果 
作为存储器地址，从存储器中读出32位数据，写人浮点寄存器 ft 中。 swcl 与 lwcl 
相反，它把浮点寄存器 ft 的内容写入存储器，存储器地址的计算方法与 lwcl 相同。 
表 10.1 列出了这7条指令的格式。 


表 10.1 与 FPU 冇关的7条指令的格式 


指令 

【31:26] 

[25:21] 

[20:16] 

[15:11] 

[10:6] 

[5:0] 

意义 

lwcl 

110001 

rs 

--- i 

ft 

offset 

取浮点存储器字 

swcl 

111001 

mm 

mm 

offset 

存浮点存储器字 

add.s 

010001 

10000 

mm 

fs 

fd 

000000 

浮点加 

sub.s 

010001 

10000 

mm 

fs 

fd 

000001 

浮点减 

mul.s 

010001 

10000 

mm 

fs 

fd 

000010 

浮点乘 

div.s 

010001 

10000 

ft 

fs 

fd 

000011 

浮点除 

sqrt.s 

010001 

10000 

00000 

fs 

fd 

000100 

浮点开方 


10.1.2 CPU/FPU 基本的流水线模型 


指令 lwcl 和 swcl 的流水线与 lw 和 SW 类似，但浮点运算指令的流水线要复杂 
一些。基本的流水线模型如图 10.1 所示。 



图 10.1 CPU / FPU 流水线模铟 

整数指令的流水线与第8章描述的流水线 CPU 相同，有5级。浮点加、减指 
令有6级，其中 ALIGN 完成阶码对齐， CAL 对浮点尾数进行计算， NORN 完成浮 
点数的规格化。浮点乘法指令的流水线也有6级，其中 MUL 是用 Wallace 树型算法 
计算部分积， ADD 级把部分积相加， NORN 完成浮点数的规格化 3 浮点加、减、 
乘指令可以用流水线的方式执行，即每个周期可以接收一条指令。浮点除法和浮点 
开方指令的执行冇些复杂。在 ITE (迭代）级，我们用 Newton - Raphson 的迭代算法 
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计算出 1 /b (除法指令）和 1/ W ( 开方指令)。然后再用一次乘法，计算出商和平方 
根 ： q = a X (1/ b ) = a / b、q = d X ( l />/ d ) = >/3。 这部分与浮点乘法的 MUL 及 
ADD 相同，使用 Wallace 树型算法。然后是规格化级。浮点除法指令的 ITE 级需要 
16个 周期： 查 ROM 表需要一个周期，3次迭代需要15个周期。浮点开方指令的 ITE 
级需要22个 周期： 査 ROM 表需要一个周期，3次迭代需要21个周期，见图10.2。 


规格化 




Xo 

第1次迭代 

第2次迭代 

第3次迭代 

乘 



除： 

IF ID 1 2345678 9 10 11 12 13 14 15 16 

El | E 2 



stall 


IF 


ID 


| El | E 2| E 3| w | 


规格化 



xo 

第1次迭代 

第2次迭代 

第3次迭代 

乘 



开方： | if|id 

- 1 

2 3 4 5 6 7 8 

9 10 11 12 13 14 15 

16 17 18 19 20 21 22 

El | E 2 

E 3 M 


stall 

| 


| 


_ 

ID 

_Hij 


E 


2| E 3 |^j 


图 10.2 浮点除法和开方指令的流水线 

为了使电路的实现变得简单，我们统一了浮点加减乘除和开方的流水线模 
型，见图10.3。对浮点除法和开方指令，我们把 ITE 与 ID 级合并为一级，在此 

期间暂停流水线的取指令操作。这样，所有的浮点指令就有了统一的流水线模 
型： IF 、 ID 、 El 、 E 2、 E 3、 WB 。 在以后的流水线数据相关问题的讨论中，我们就使 
用这个流水线模型，不再区分是否有迭代。 


IF ID EXE MEM WB 




图 10.3 统一的流水线模型 
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10.2 带有两个写端口的寄存器堆设计 


浮点寄存器堆有32个浮点寄存器。与整数部件的寄存器堆不同，浮点寄存器 
堆需要有两个写端口。为什么？看看图 10.4 就知道了。由于浮点指令的流水线有6 
级，而 lwcl 指令的流水线只有5级，出现了在同一个周期有两个向浮点寄存器堆的 
写入 操作： 一个是浮点运算指令的结果写回，另一个是存储器数据向浮点寄存器堆 
的写入。因此我们需要设计一个带有两个写端口的寄存器堆。 


lwcl 

fO 

lwcl 

n 

add.s 

f2 

sub.s 

f3 

lwcl 

f4 


100(rl) 
1 00(r2) 

a ro 

f 3, n 

100(r3) 


IF 


ID 


IF 


EXE 


ID 



MEM 


EXE 


ID 


IF 



MEM 


El 


ID 


IF 



两个写操作 


E2 


El 


ID 


E3 


E2 


EXE 


WB 


E3 

WB 

MEM 

WB 


图 10.4 需要两个写端口的寄存器堆 


图 10.5 所示的是两个写端口的寄存器堆的逻辑电路图，其中左上角部分是寄存 
器堆的电路符号，其余部分是寄存器堆的详细内部电路。 



regfile2w 



dec5e 

wn0[4:0] —^ 
weO — jj 


w0e[31:0] 


wnl[4:0] 



dec5e 

— wle[31:0] 


w0e[31:0] 

wle[31:0] 


we[31:0] 



wd0[31:0] 

wdl[31:0] 

wle[0] 


mux2x32 



q[0][31:0] 


mux2x32 



mux32x32 


q[31:0][31:0] 

m0[4:0] 



q0[31:0] 


q[31:0][31:0] 
ml [4:0] 


mux32x32 



ql[31:0] 


m io .5 两个写端口的寄存器堆的详细电路 


图中右上角较大的虚线框中是32个32位的寄存器 （32 个 dffe 32) 和32个二选一 
多路器(每个寄存器一个，用于选择向寄存器写人的数据)。寄存器堆的读端口与整数 
部件的寄存器堆相同，根据两个5位的寄存器号 m 0 和 ml , 从寄存器堆中选择两个 
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32位的寄存器，把它们所保存的内容由 q 0 和 ql 端口分别送出（图中的右下部分)。 
这部分电路由两个简单的多路选择器 ( mux 32 x 32) 实现。 

两个写端口的编号分别为0和1。当写使能信号 weO ( wel ) 为1时，32位的数据 
wdO ( wdl ) 在时钟的上升沿处写入 wnO ( wnl ) 号寄 存器。 对两个寄存器号 wnO 和 wnl 
的译码分别由两个 5-32 译码器 ( dec 5 e ) 实现。译码器带有使能端，为0时，译码器的 
所有32位输出均为0。只有当使能端为1时，译码器的32位输出中才有一位为1, 
其余31位为0。两个译码器相应的输出位相“或”后，分别接到各自的寄存器 dffe 32 
的使能端。即只要有一个写端口选中一个寄存器，数据就要被写入其中。 

如果两个写端口同时要向同一个寄存器写入数据，问题就来了。又不能两个都 
写，总要选一个。我们这里用了最简单的 方法： 1号写端口的优先级比0号高，选1 
号，丢掉0号。寄存器 dffe 32 的 d 输入端前面的二选一多路器 mux 2 x 32 就是干这个 
的，选择端由1号控制。如果两个写端口分别向不同的寄存器写人数据，大家相安 
无事。在编写汇编程序时，应能避免向同一寄存器的同时写入。 

以下就是它的 VerilogHDL 代码，比电路图简单多了。不难读懂，只是要注意代 
码中把写端口的0号和1号分别用 x 和 y 来代替，而把读端口的0号和1号分别又用 
a 和 b 来代替 t 。 读懂后你会不会感觉 Verilog HDL 还不错？ 


module regfile2w 

input [4:0] 
input [31:0] 
input 

output [31:0] 
reg [31:0] 
assign 
assign 


(rna f rnb f dx f wnx, vtex, dy, wny, wey # elk, clrn, qa, qb); 
rna, rnb # wnx,wny; 
dx,dy; 

wex,wey,elk,clrn; 
qa,qb; 

register [0:31]; 

qa = register[rna]; // read port a 
qb = register[rnb]; // read port b 


always @ (posedge elk or negedge clrn) 


if (clrn == 0) begin 

integer i; 


for (i = 0; i < 32; i = i + 1) register[i] <= 0; 
end else begin 

if (wey) // write port y has a higher priority than x 

register[wny] <= dy; // write port y 
if (wex && (!wey || (wnx != wny))) 

register[wnx] <= dx; // write port x 

end 

endmodule 


10.3 浮点数据相关以及流水线暂停 

本节讨论浮点数据相关及流水线暂停的问题，包括三方面 内容： （1) 浮点运算指 
令之间的数据 相关； （2) 存储器访问指令与浮点运算指令之间的数据 相关； （3) 浮点除 
法和开方指令如何暂停流水线。图 10.6 是一个简化的 CPU 内部结构图，上半部分是 
浮点部件 FPU , 下半部分是整数部件 IU 。 各流水线级之间使用了流水线寄存器。 
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ID 


EXE 


I MEM I WB I 


图 10.6 简化的带有 FPU 的 CPU 结构 


注意图中没有给岀任何内部前推的电路，浮点除法和开方指令的流水线模型也 
被简化成与浮点加减乘指令相同。该图是基础，通过本节的讨论，我们慢慢把所需 
的电路加到它上面，从而得到最终的电路。 • 


10.3.1 浮点运算结果的内部前推和流水线暂停 

浮点运算指令 （ add.s ， sub.s, mul.s, div.s 和 sqrt.s) 之间的数据相关要比整数运算指 
令之间的数据相关复杂得多。整数运算指令在 EXE 级结束时就能得到结果 （不 包括 
lw 指令)，只要使用数据内部前推就能解决数据相关问题，不用停流水线。浮点指令 
要在 E 3 级结束时才能得到结果，因此可能要停流水线。 

首先从最简单的情况幵始讨论数据相关问题。见图10.7,第1条指令 a dd . S f 2， fl ， 
f 0 把寄存器 fl 和 fD 的内容相加，结果送入 f 2。 流水线级 IF 、 ID 、 El 、 E 2、 E 3 、WB 
分别用 add . s 、 el 、 e 2、 e 3、 f 2 来 表示 ： ID 级（第 2 个周期）从寄存器堆读出寄 
存器 fl 和 ft ) 的内容， WB 级(第6个周期的前半部分)把加法结果写人寄存器 G 。 


周期： |1|2|3|4|5|6|7|8|9|10 


W W 

add.s f2, fl, fD 

adds 

n,ro 

el 

c2 

e3 

| f2 forward f2 



add.s f5, f4, f3 

add.s 

f4,f3 

el 

c2 

c3 




add.s f8, H, f6 


add.s 

H,f6 

el 

e2 

e3 

«i 


add.s f2 ， f2 — 



add.s 

f2 ， f2 备 

el 

mm 

e3 


add.s flO, 




add.s 


m» 

e2 

e3 |n0 


图 10.7 浮点数据的内部前推、不需停流水线 

图中最后一条指令没有问题，它可以在 ID 级的后半部分读出 C 的内容。第 4 
条指令 add.s f9, f2, f2 使用第一条指令的结果。注意第 4 条指令在第 5 个周期就要读 
寄存器 G 的内容，这时第1条指令还没有把数据写入 f 2。 这个数据相关问题可以使 
用内部前推技术来解决，如图 10.7 中的箭头线所示。 













10.3 浮点数据相关以及流水线暂停 


309 


为此，我们在 ID 级配备两个二选一多路器，选择信号分别为 fSvdfa 和 f \ vdfb 。 
当图 10.7 的情况出现时，选择 E 3 级的输出，而不是寄存器堆的输出。在 ID 级结 
束时的上升沿处，把选中的数据打入流水线寄存器，如图 10.8 所示。图中的 fop 是 
浮点操作控制码， fwfpr 是浮点运算指令的结果写回信号（浮点目的寄存器的写使 
能)， fd 是浮点指令中的目的寄存器号。 


F7 



图 10.8 浮点部件的内部前推电路 


两个二选一多路器的选择信号如何产生是问题的关键。从前面的讨论可知，如 
果处在 E 3 级的指令是一条浮点运算指令，并且它的目的寄存器号与 ID 级指令的一 
个源寄存器号相同，则要选择 E 3 级的数据。因此，两个多路器的选择信号分 别为： 


fwdfa = e3w & (e3n == fs); // forward fpu e3d to fp a 
fwdfb = e3w & (e3n == ft); // forward fpu e3d to fp b 


式中的 e 3 w 和 e 3 n 分别是 E 3 级的浮点寄存器的写使能信号和浮点目的寄存器号。这 
两个信号是从 ID 级传过来的，它们分别对应 ID 级的 fWfj ? r 和 fd 。 

由于浮点指令的执行需要3级 ( El 、 E 2 和 E 3), 而上例中的两条数据相关的指令 


之间又隔了两条指令，使得刚好通过数据的内部前推就可解决数据相关而不用暂停 


流水线。两条数据相关的浮点指令之间只相隔一条指令的情况如图 10.9 所示。 


注意我们不能把 E 2 级的数据前推，因为它不是浮点指令的最终结果，因此我 
们必须要把流水线暂停一个周期，等待最终结果的出现。如何产生流水线的暂停信 
号，我们稍后给出，因为还有更严重的数据相关的情况，即，相邻的两条浮点指令 
数据相关，如图 10 J 0 所示。这时的流水线要暂停两个周期。 


综合图 10.9 和图 10 J 0 的两种情况，我们给出由于浮点运算指令的数据相关而 
需要暂停流水线的信号 stalLft ) (也要参照图 10.8): 
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周期: 

adds 口， fl, fD 
add.s f5, f4, f3 

add.s f9, 12 ， f2 

adds fB, f7, f6 

adds flO，fl 1, f2 



图 10.9 浮点数据的内部前推、流水线停一个周期 

周期： |1|2|3|4|5|6|7|8|9|10 
adds 12， fl , fD 
adds f 9， f 2， f 2 

add.s f 5, f 4, f 3 
add.s fB ， f 7, f 6 

add.s flO , fll ， f 2 

图 KUO 浮点数据的内部前推、流水线停两个周期 



i_fs = i_fadd | i 一 fsub | i_fmul | i 一 fdiv | i_fsqrt; // use fs 

i_ft = i 一 fadd | i—fsub | i—fmul | i 一 fdiv; // use ft 

stall_fp = (elw & (i_fs & (eln == fs) | i_ft & (eln == ft))) | 

(e2w & (i—fs & (e2n == fs) | i—ft & (e2n == ft))}; 

其中， Lfs 和 Lft 分别表示使用 fs 寄存器操作数和 ft 寄存器操作数的浮点 指令： 所有 
的5条浮点运算指令都使用 fs ; 除了浮点开方指令，其他的4条指令也都使用 ft 寄 
存器操作数。变量 i — fadd 、 i _ fsub 、 i.ftnuK i - fdiv 和 i . fsqrt 是根据指令中的 op 和 ftinc 
分别对 add . s 、 sub . s 、 mul . s 、 div . s 和 sqrt . s 指令的译码。当 stalLfp 为 1 时，禁止在时 
钟的上升沿处修改程序计数器 PC 和指令寄存器 IR 。 因为还有其他情况也要暂停流 
水线，我们稍后给出 PC 和 IR 的写使能信号 wpciro 

10.3.2 lwcl 和 swcl 造成的流水线暂停及内部前推 

与整数部件的 lw 和 SW 指令类似， lwcl 和 swcl 两条指令实现浮点寄存器和存 
储器之间的数据 传送： lwcl 从存储器读出数据并将数据写人浮点寄存 器堆； swcl 指 
令把浮点寄存器堆中的内容写人存储器。存储器地址的计算与 lw 和 SW 指令的存 
储器地址的计算相同。 lwcl 的执行状况与 lw 基本相同，二者均可引起流水线的暂 
停； swcl 与 SW 稍有 不同： SW 指令不会暂停流水线，而 swcl 指令即使使用内部前推 
技术，也有可能必须要暂停流水线。这是因为 swcl 要存储的数据是由浮点指令计算 
出的，而浮点运算至少要用3个周期（整数运算只用一个周期)。 

参照 10.1 节对 lwcl 和 swcl 的描述，我们有如图 10.11 所示的执行这两条指令所 
需的最基本的数据路径。 lwcl 指令的流水线为 IF 、 ID 、 EXE , MEM 、 WB , 目的寄 
存器号为 ft 。 在 ID 级，控制部件产生浮点寄存器堆的写使能信号 ALU 在 EXE 
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级计算存储器地址，存储器数据在 MEM 级读出， WB 级写人浮点寄存器堆 。 swcl 
指令的流水线为 IF 、 ID 、 EXE 、 MEM 。 在 ID 级，控制部件产生 swfjD 信号，它被用 

来选择浮点寄存器的数据。经过流水线寄存器的锁存，被选中的数据在 MEM 级写入 
存储器。 swcl 指令也令 wmem = 1。 


m FI F? FI 



图 10.11 执行 lwcl 和 swcl 指令的基本数据路径 

首先我们考虑图 10.12 执行 lwcl 的情况。第4条指令 add.s f 2, fl , f 0 使用 fl 寄存 
器的内容作为一个源操作数，与第2条指令 lwcl fl ，100( r 2) 数据相关。我们可以在 
第5个周期把刚刚从存储器读出的数据送到 add . s 指令的 ID 级。 


lwcl 

lwcl 

sub.s 

add.s 

lwcl 


周期：丨 1 

2 

3 

4 

4 

• 

m 

) 

1 6 

7 

8 

9 

fD ， 100(rl) | lwcl 

rl 

addr 

mem 

ro 


fl ， 100(r2) 

lwcl 

t2 

addr 

mem 

fl forward fl (mmo) 


f3, f5 ， f4 


sub.s 

f5 ， f4 

el 

e2 

e3 

f3 



f2, H , fD ^― 



add.s 

n ， ro 备 

el 

e2 

e3 

f2 

f4 100(r3) 




lwcl 

r3 

addr 

mem 

f4 



图 10.12 与 lwcl 指令的数据相关（内部前推) 


为此，我们使用两个二选一多路器来选择存储器数据，见图10.13。在 ID 级， 
当浮点运算指令的源寄存器号与 MEM 级的 lwcl 指令的目的寄存器号相同时，选择 
存储器数据。两个多路器的选择端 fSvdla 和 fwdlb 的逻辑表达式如下。 

wfpr = i—lwcl & wpcir ; // fp regfile write enable 

fwdla = mwfpr & (mrn == fs); // forward mmo to fp a 

fwdlb = mwfpr & (mrn == ft); // forward mmo to fp b 
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w % 是浮点寄存器堆的写使能 信号； wpcir 是 PC 和 IR 的写使能信号（稍后给出)，和 
iJwcl 相与是为了防止流水线暂停时 lwcl 多次写浮点寄存器堆； mw 市 I ■是 MEM 级 
的 wfjjr ; mm 是 MEM 级的 lwcl 指令的目的寄存器号。图 10.13 7 K 出/存储器数据 
的内部前推电路，其中 mmo 是数据存储器在 MEM 级的输出。 



图 10.13 存储器数据的内部前推 


周期 ：I 1 I 2 | 3 | 4 I 5 | 6 | 7 | 8 | 9 | 10 

lwcl fD ，100( rl ) 

lwcl fl , 100( r 2) 

add.s f2, fl, fD 

sub.s f3 ， fl, fD 

lwcl f4 100(r3) 

图 10_14 与 lwcl 指令的数据相关(暂停流 水线） 



如果一条浮点运算指令马上使用 lwcl 取来的数据，除了要进行数据的内部前 
推，还需要把流水线暂停一个周期（与 lw 指令类似)。图 10.14 所示的就是这种情 
况。与 lwcl 数据相关而需要暂停流水线的条 件为： 

stall」wcl = ewfpr & (i_fs & (ern == fs) | i—ft & (ern == ft)); 

其中， Lfs 和 i _ ft 分别表示使用 fs 寄存器操作数和 ft 寄存器操作数的浮点指令，我们 
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已经给出了它们的逻辑表达式； ewf^r 是 EXE 级的 ern 是 EXE 级的 Iwcl 指令 
的目的寄存器号。 

讨论完了 lwcl 的数据相关及暂停流水线的问题，现在该轮到 swcl 了。同样， 
我们从数据相关的最简单的情况开始。见图 10.15, 第 4 条指令 swclf2, lOO(rl) 要把 
第 1 条指令 add.s f2, fl, f0 的浮点加法结果保存到存储器中。 swcl 指令肯定不能使用 
从 f2 寄存器中读出的内容，因为当 swcl 读 f2 时， add.s 还没有把加法结果写进去。 



周 期：丨 1 

1 2 | 

3 

4 

5 

1 6 

7 


i | 9 | 10 

add.s 

n, n, fD 



cl 

c 2 

c 3 

1 f 2 1 forward f 2 



add.s 

f 5， f 4, f 3 

add.s 

f 4 ,D 

el 

e 2 

e 3 




add.s 

f 8, f 7, f 6 


adds 

f 7 ，flS 

el 

e 2 

e 3 

re 


swcl 

f 2 ， 100( rl ) ^― 



swcl 

rl , f ^ 

addr 

mem 



add.s 

f !0, fll ， f 2 




add.s 


el 

e 2 e 3 flO 


罔 10.15 swcl 指令的数据相关（前推到级) 


从图中可以看出，浮点加法结果可以在第 5 个周期被前推到 swcl 的 ID 级。因 
此我们在 id 级加一个二选一多路器。多路器的选择信号为 fwdf 。 当它为 r 时，选择 
浮点运算指令在 E3 级的结果 （e3d)。 等讨论完了图 10.16 的情况，我们一并给出多路 
器选择信号的逻辑表达式。 


add.s 

add.s 

swcl 

add.s 

add.s 


周期: 
n, fi, fo 

f 5， f 4, o 

f 2, 100( rl ) 

«， f7, f6 

no, 
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6 
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10 


adds 


fl.fO 


add.s 


cl 


f 4, f 3 


swcl 


e 2 


el 


rl ， f 2 


adds 


c 3 


e 2 


addr 


f 7, f 6 


add . 


f2 forward f2 


e 3 


mem 


el 


m,f2 


f 5 


e 2 


el 


e 3 


e 2 


f8 


c3 no 


m 10.16 swcl 指令的数据相关（前推到 EXE 级) 


在图 10.16 中，第 3 条指令要把第 1 条指令的结果保存到存储器中。我们可以 
把 e3d 送到 swcl 的 EXE 级。因此我们在 EXE 级再加一个二选一多路器。注意， 
多路器的选择信号 fWdfe 在 1D 级生成， 经 过流水线寄存器送到 EXE 级，名称变为 
efWdfe。 当它为 1 时，选择浮点运算指令在 E3 级的结果 （e3d)。 以下是 fWdf 和 fSvdfe 
的逻辑表达式。 


swfp = i—swcl; // select signal, need not & wpcir 

fwdf- = swfp & e3w & (ft == e3n); // forward to id stage 

fwdfe = swfp & e2w & (ft == e2n) ; // forward to exe stage 

阁 10.17 所示的情况必须要把流水线暂停一个周期。由 swcl 数据相关引起的流 
水线暂停信号 stalLswcl 的逻辑表达 式为： 

stall—swcl = swfp & elw & (ft == eln); // stall 
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式中的 swf ^ j 是 ID 级的信号，表示 ID 级的指令是 swcl ， elw 是 E 1 级的浮点运算 
指令写浮点寄存器堆的使能信号， eln 是 E 1 级的浮点目的寄存器号， ft 是 ID 级的 
swcl 指令中的浮点源寄存器号。 



周期 ： 1 

1 1 2 

3 1 4 
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10 
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addr ’ 

mem 
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el 
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c3 
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el 

e2 
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围 10.17 swcl 指令的数据相关（暂停流水线 ) 


综合以上的讨论，我们可以得到图 10.18 所示的 lwcl 和 swcl 指令的数据内部前 
推的电路结构，主要部分是几个多路器以及它们的选择信号。 


I ID 

i El i E2 

E3 I 

WB i 

1 

II 

1 1 

1 



ID . EXE I \ 1 M i WB 


图 10.18 lwcl 和 SWCl 指令的数据内部前推 
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10.3.3 浮点除法和开方指令造成的流水线暂停 

前面已经讲过，通过暂停流水线的方法，我们把浮点除法和开方指令的译码周 
期和 Newton - Raphson 迭代操作看成流水线的“一级” ( ID 级)。对于浮点除法指令来 
讲，这一级有17个时钟 周期： 译码周期一个，计算迭代的初始值 x G —个，三次迭代 
15个（每次5个)。浮点开方指令有23个(三次迭代每次用7个周期)。 

如果我们用 stall _ div _ sqrt 来表示浮点除法和幵方指令的流水线暂停的信号，则总 
共有5个信号暂停流水线，它 们是： 

1) stalLlw : 整数运算指令与 lw 指令数据相关引起的流水线 暂停； 

2) stalLlwcl : 浮点运算指令与 Iwcl 指令数据相关引起的流水线 暂停； 

3) stall _ swcl : swcl 指令与浮点运算指令数据相关引起的流水线暂停； 

4) stall . fp : 浮点运算指令之间的数据相关引起的流水线 暂停； 

5) stall _ div _ sqrt : 浮点除法和开方指令等待 Newton - Raphson 迭代操作完成。 

前4个信号有一个共同的 特点： 它们只是禁止程序计数器 PC 和指令寄存器 IR 的写 
入，而不禁止流水线寄存器的写人（当然要防止同一条指令执行多次)。 stall _ div_sqrt 
除了封锁 PC 和 IR ， 也要禁止浮点部件的流水线寄存器的写人，见图10.19。 



图 10.19 浮点除法和开方指令暂停流水线 

在图 10.19 中，前5条指令是浮点除法或开方指令。在它们的 ID 级，产生相应 
的流水线暂停信号 stalLdiv 或 stalLsqrto 在流水线暂停期间，浮点部件完成 Newton - 
Raphson 迭代。因为我们把这个特殊的 ID 看成流水线的一级，所以它有多长，在此 
期间的浮点指令的 El 、 E 2、 E 3 和 WB 周期就会有多长。因此，浮点部件中的所有流 
水线寄存器的写使能信号 w _ f )3_ pipe _ reg 为： 

stall 一 div—sqrt = stall 一 div | stall 一 sqrt; 

w 一 fp_pipe—reg = ~stall—div_sqrt; // fp pipe 一 reg write enable 

当以上 5 个流水线暂停信号中的任何一个为 1 时，都要暂停流水线。因此 ， PC 
和 IR 的写使能信号 wpcir 为： 
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wpcir = 一 (stall—div 一 sqrt I stall 一 others) ; 

stall—others = stall 一 lw | stall—fp I stall 一 lwcl I stall 一 swcl; 

为什么要单独设一个 stall .others 信号？因为它与 stall _div_sqrt 不同。我们知道， 
暂停流水线只是禁止修改 PC 和 IR, 而已经在 ID 级的指令还是会沿着流水线 “ 流 ” 
下去。这就会导致一条指令重复执行两次或两次以上。为了避免由此而错误地修改 
CPU 的状态，我们在 ID 级把所有的写信号在流水线暂停期间都设置为 无效： 

wreg = (i 一 add | i 一 sub | i—and | i 一 or | i—xor | i_sll | 

i—srl I i_sra | i—addi | i_andi | i—ori | i 一 xori | 

i」w I i 一 lui I i 一 jal) & wpcir; // regfile write ena. 

.wmem = (i_sw | i 一 swcl) & wpcir; // memory write 

wfpr = i 一 lwcl & wpcir; // fp regfile write ena. (lwcl) 

wf = i—fs & wpcir; // fp regfile write ena. (fp operation) 

i_fs = i — fadd | i—fsub | i—fmul | i 一 fdiv | i 一 fsqrt; // use fs 
// fop: 000 : fadd 

// 001 : fsub 

// Olx : fmul 

// lOx : fdiv 

// llx: fsqrt 

fop[0 】 = i—fsub; // fpu operation control code 
fop[1] = i_fmul I i 一 fsqrt; 
fop[2 】 =i 一 fdiv I i—fsqrt; 
fc = fop & {3{~stall 一 others}}; 

前 4 个写信号均与 （&) 上了 wpcir ( 封锁写信号 ) 。最后一个信号 fc 是浮点操作的 
控制码。根据 fc, 我们可以得到浮点除法指令和浮点开方指令的启动执行信号 fdiv 
和 fsqrt 。 而 fdiv 和 fsqrt 会启动各自的计数器以完成 Newton-Raphson 迭代并且产生各 

自的暂停流水线的 信号： 

fdiv = fc[2] & ~fc[l]; // start the execution of div.s 

fsqrt = fc[2] & fc[1] ; // start the execution of sqrt.s 

stall 一 div = fdiv & (count == 0) | busy; 
stall—sqrt = fsqrt & (count == 0) | busy; 

为什么 fc 的产生要与上 stalLothers 的 “ 非 ” 而不是直接与上 wpcir? 如果在 fc 的 
逻辑表达式中直接与上 {3{wp C ir}} ， 会造成组合逻辑的 “ 循环”：不知道信号的源头 
在哪里，因为产生 wpcir 时是把 fc 作为输入信号使用的。那么，因为 stalLothers 信 
号中不包含 stalLdiv_s q rt ， 会不会造成一条浮点指令被执行多次？答案是不会，因为 
stall_div_sqrt 封锁了浮点部件的流水线寄存器，指令 “ 流 ” 不下去。 

秦 

10.4 带有 FPU 的流水线 CPU 的总体结构及 Verilog HDL 代码 

有了以上各节的描述，现在我们正式给出带有 FPU 的流水线 CPU 的具体电路以 
及 Verilog HDL 代码。 * 
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10.4.1 带有 FPU 的流水线 CPU 的具体电路 


图 10.20 是 CPU 的总体电路图。它由整数部件模块 iu 、 浮点部件模块 f ^ u 、 两个 
写端口的浮点寄存器堆 regfile 2 w 和4个二选一多路器组成。 


regfile2w 



图 10.20 带有浮点部件的流水线 CPU 

浮点部件在 WB 级的运行结果 wd 经0号端口写人浮点寄存器堆中的 wn 寄存 
器， WW 是写使能信号； lwcl 指令取来的存储器数据 wmo (WB 级）经1号端口写入 
wrn 寄存器，写使能信号为 wwfpr 。 浮点寄存器堆两个读端口的输出为 qfa 和 qfb ， 
它们分别是 fs 寄存器和 ft 寄存器的内容。 

左边的两个多路器用来前推 MEM 级的存储器数据 mmo , 其选择信号分别为 
fwdla 和 fwdlb ； 右边的两个多路器用来前推浮点部件 E 3 级的计算结果 e 3 d ( fj ) u 的 
ed ), 其选择信号分别为 fWdfa 和 fwdfb 3 最右边多路器的输出 dfb 是 swcl 指令要往 
数据存储器中写人的数据，所以要把它送给 iu 。 其他的直接连接 ill 和 fpu 的信号用 
于浮点操作的控制和数据相关的判断。 

图中有两个输出信号没有使用，它 们是： （ 1) 指出当前在 ID 级的指令是浮点加 
减乘除或开方指令的 fasmds 信号； （ 2) 流水线寄存器的写使能信号 e 。 两个输入信号 
st 和 ein 分别接0和1。这些信号将在第11章给出的多线程 CPU 的设计中用到。以 
下两小节分别详细介绍整数部件模块 in 和浮点部件模块 中11 的内部电路 c 






输入信 号有： （1) 两个 32 位的单精度浮点数 a 和 b; (2) 浮点操作控制码 fc (3 
位)，其编码的意义已在图中给出。 fc 的最高两位用作四选一多路器的选择信号，最 
低位控制是加还 是减； （3) 浮点运算指令的浮点寄存器堆写使能信号 wf; (4) 浮点运 
算指令的目的寄存器号 fd。 后三 个信号 fc、wf 和 fd 来自 iu 模块的控制部件。 

输岀信 号有： （1)E3 级的运算结果 ed， 用于内部 前推； （2) 浮点除法或开方指令 
引起的流水线暂停信号 stall; (3)WB 级的运算结果 wd; (4) WB 级的浮点寄存器堆写 
使能信号 ww; (5) WB 级的浮点运算指令的目的寄存器号 wn; ⑹ El、E2 和 E3 级的 
寄存器堆的写使能和目的寄存器号 elw、eln、e2w、e2n、e3w 和 e3n。 这些信号被 
控制部件用来判断数据是否相关以产生多路器的选择信号和流水线的暂停信号。 

该模块画有 5 个流水线寄存器。其他的流水线寄存器藏在 4 个浮点运算模块内 
部。这 4 个模块分别完成浮点加减、乘、除和开方。我们可以根据每个模块上方的 
名称，在第 9 章中查到它们的 VerilogHDL 代码。在本章的 CPU 实现中，我们忽略 
了浮点舍人方式的选择，将其设置为间定的就近舍入。 
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10.4.3 整数部件 IU 的具体电路 

图 10.22 示出的是图 10.20 中 iu 模块的详细电路。与第 8 章的流水线 CPU 相 
比，整数部件新加的主要功能是对浮点指令译码并提供相应的控制信号。例如为浮 
点运算指令提供操作控制码 fc 、浮点目的寄存器号 fd 和相应的浮点寄存器堆写信号 
wf; 为 lwcl 指令提供浮点寄存器堆的写信号 wfpr 和相应的数据 wmo; 为 swcl 指令 
提供浮点寄存器数据的选择信号 swlp 和相应的数据 dfb 。 



图 10.22 整数部件 IU 

与数据内部前推有关的信 号有： 执行 lwcl 指令时的存储器数据前推信号 iVdla 
和 fwdlb 以及相应的数据 mmo ； 执行 swcl 指令时的浮点寄存器数据前推信号 fwdf 
( ID 级前推）和 fwdfe (EXE 级前推）以及相应的数据 e3d ； 执行浮点运算指令时的浮点 
结果 (e3d) 前推信号 fwdfa 和 fwdfb 。 生成这些信号时，控制部件需要 知道市 u 的内部 
状态： elw 、 eln 、 e2w 、 e2n 、 e3w 和 e3n 。 最后还有一个来自 帀 11 的 stall 信号，表示 

浮点部件正在执行浮点除法或开方指令，用于暂停流水线。 
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10.4.4 带有 FPU 的流水线 CPU 的 Verilog HDL 代码 

本小节列出 CPU 的 Verilog HDL 代码。首先从最顶层的代码开始。读者可以对 
照图 10.20 阅读以下的代码，但要注意模块的输入输出信号要比图中多。多出的信号 
有些是必需的而图中没有画，比如时钟信号 clock; 有些则是为使逻辑测试方便而设 
置的，比如计数器 count_div 和 count_sqrt 。 

module fpu—l—iu (clock,memclock,resetn, pc, inst,ealu,malu,walu,wn, 

wd,ww,stall 一 lw,stall 一 fp,stall_lwcl,stall_swcl, 
stall,count 一 div,count 一 sqrt,eln, e2n, e3n, e3d, e); 
input clock,memclock,resetn; 
output [31:0] pc,inst,ealu,malu,walu; 
output [31:0] e3d,wd; 
output [4:0] elri/ e2n # e3n f wn; 

output ww / stall 一 lw, stall 一 fp, stall_lwcl, stall_swcl, stall; 
output e; // for multithreading CPU, not used here 
output [4:0] count 一 div,count 一 sqrt; // for testing 

调用整数部件 hi 模块： 

wire [31:0] qfa,qfb,fa,fb,dfa,dfb,mmo,wmo; // for iu 
wire [4:0] fs,ft,fd; 
wire [2:0] fc; 

wire fwdla,fwdlb,fwdfa,fwdfb, wf, fasmds; 

wire elw,e2w # e3w,wwfpr; 

iu i_u (eln,e2n,e3n, elw,e2w,e3w, stall,1’bO, // st = 0 

dfb,e3d, clock,memclock,resetn, 

fs,ft, wmo f wrn,wwfpr,mmo,fwdla,fwdlb,fwdfa,fwdfb,fd,fc,wf,fasmds 
pc,inst,ealu,malu,walu, // for testing 

stall 一 lw,stall 一 fp,stall 一 lwcl,stall 一 swcl); // for testing 

浮点寄存器堆和 4 个二选一多 路器： 

wire [4:0] wrn; 

regfile2w fpr (fs,ft,wd,wn,ww,wmo,wrn,wwfpr,~clock, resetn, qfa, qfb); 
mux2x32 fwd_f_load — a (qfa,mmo,fwdla,fa); // forward lwcl to fp a 

mux2x32 fwd 一 f 一 load__b (qfb,mmo,fwdlb,fb); // forward lwcl to fp b 

mux2x32 fwd — f — res 一 a (fa,e3d,fwdfa,dfa); // forward fp res to fp a 

mux2x32 fwd 一 f_res — b (fb,e3d,fwdfb,dfb); // forward fp res to fp b 

调用浮点部件 年11模块： 

wire [1:0] elc,e2c,e3c; // for fpu 

fpu fp 一 unit (dfa, dfb, fc,wf, fd, 3/bl, clock, resetn, e3d, wd, wn, ww, 

stall,eln,elw,e2n,e2w,e3n,e3w, 
elc,e2c,e3c,count 一 div,count 一 sqrt,e>; 

endmodule 


以下是浮点部件 nm 模块（对照图 10.21)： 
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module fpu (a, b f fc,wf,fd,ein,clk,clrn,ed,wd f wn,ww # stall, 

eln,elw,e2n,e2w,e3n,e3w f elc,e2c,e3c,count 一 div ， 
count 一 sqrt,e); 

input [31:0] a,b; // 32 - bit fp numbers 

input [2:0] fc; // 000:add 001 : sub 01x:mul 10x:div llx:sqrt 

input wf; // write fp regfile 

input [4:0] fd; // fp destination reg number 

input ein; // enable input 

input clk,clrn; 

output [31:0] ed,wd; // wd: fp result 

output elw,e2w,e3w,ww; // write fp regfile 

output [4:0] eln, e2n, e3n, wn; // reg numbers 

output stall, e; // caused by fdiv and fsqrt 

output [1:0] elc,e2c,e3c; // for testing 

output [4:0] count 一 div,count 一 sqrt; // for testing 

reg [31:0] wd; 

reg sub; 

reg [31:0] efa f efb; 

wire [31:0] s 一 add,s 一 mul,s—div,s_sqrt; 

reg [1:0] elc,e2c,e3c; 

reg elw,e2w,e3w,ww; 

reg [4:0] eln,e2n,e3n,wn; 

wire busy 一 div,stall 一 div,busy 一 sqrt,stall—sqrt; 

wire [25:0] reg — x 一 div,reg—x 一 sqrt; • 

wire fdiv = fc [2] & fc [ 1 ]; 

wire fsqrt = fc[2] & fc[1]; 

调用第 9 章给出的 4 个浮点运算模块，舍入方式 rm = 00 : 

pipelined 一 fadder f—add (efa,efb,sub,2 f bO,s 一 add,elk,clrn,e); 
pipelined—fmul f—mul (efa,efb,2’ bO,s—mul,elk,clrn,e); 

fdiv 一 newton f_div (a,b,bO,fdiv, e,elk,clrn,s_div, busy_div, 

stall—div, count 一 div, reg—x 一 div); 
fsqrt—newton f—sqrt (a,2 f bO,fsqrt,e,elk,clrn,s 一 sqrt,busy—sqrt, 

stall 一 sqrt,count 一 sqrt,reg_x 一 sqrt); 

产生流水线暂停信号和流水线寄存器的写使能、选择运算 结果： 

assign stall = stallsdiv | stall_sqrt; 
assign e = ~stall & ein; 

mux4x32 fsel (s 一 add,s 一 mul,s_div,s 一 sqrt,e3c,ed); 

流水线寄存器，受写使能信号 控制： 

always @ (negedge clrn or posedge elk) 

if (clrn == 0) begin // pipeline registers 

sub <= 0; efa <= 0; efb <= 0; 
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elc <= 0; elw 
e2c <= 0; e2w 
e3c <= 0; e3w 
wd <= 0; ww 

end else if (e) begin 

sub <= fc[0]; efa 
elc <= fc[2:1]; elw 
e2c <= elc; e2w 
e3c <= e2c; e3w 
wd <= ed; ww 

end 


<= 

0; 

eln 

<= 

0; 

<= 

0; 

e2n 

<= 

0; 

<= 

0; 

e3n 

<= 

0; 

<= 

0; 

wn 

<= 

0; 

<= 

a; 

efb 

<= 

b; 

• 

<= 

wf; 

eln 

<= 

fd; 

<= 

elw; 

e2n 

<= 

eln; 

<= 

e2w; 

e3n 

<= 

e2n; 

<= 

e3w; 

wn 

<= 

e3n; 


endmodule 


以下是整数部件 ill 模块（对照图 10.22)： 


module iu (eln,e2n, e3n, elw,e2w,e3w, stall,st, 

dfb,e3d, clock,memclock,resetn, 

fs,ft,wmo f wrn,wwfpr,mmo,fwdla,fwdlb,fwdfa,fwdfb,fd,fc,wf,fasmds f 
pc,inst,ealu,malu,walu, // for testing 

stall 一 lw,stall 一 fp,stall—lwcl,stall 一 swcl); // for testing 
input [31:0] dfb,e3d; 
input [4:0] eln,e2n,e3n; 

input elw,e2w,e3w f stall,st, clock,memclock,resetn; 

output [31:0] pc,inst,ealu,malu,walu; 

output [31:0] mmo f wmo; 

output [4:0] fs,ft,fd,wrn; 

output [2:0] fc; 

output wwfpr f fwdla,fwdlb,fwdfa f fwdfb,wf f fasmds; 

output stall 一 lw, stall 一 fp, stall 」 wcl f stall 一 swcl; 

wire [31:0] bpc,jpc,npc,pc4,ins,dpc4,inst,qa,qb,da,db,dimm,dc,dd; 

wire [31:0] simm,epc8,alua,alub,ealuO,ealu,sa,eb,mmo,wdi; 

wire [5:0] op,func; 

wire [4:0] rs,rt,rd,fs,ft,fd,drn,ern; 

wire [3:0] aluc; 

wire [1:0] pcsource,fwda,fwdb; 

wire wpcir; 

wire wreg, m2reg f wmem, aluimin, shift, jal; 

wire [31:0] qfa>qfb,fa r fb,dfa,dfb,efb,e3d; 

wire 【 4:0] eln,e2n,e3n,wn; 

wire [2:0] fc; 

wire [1:0] elc,e2c,e3c; 

reg ewfpr,ewreg,em2reg, ewmem, ejal,efwdfe,ealuimm,eshift; 
reg mwfpr,mwreg,mm2reg,mwmem; 
reg wwfpr,wwreg,wm2reg; 

reg [31:0] epc4,ea,ed,eimm,malu,mb,wmo,walu; 
reg [4:0] ernO,mrn,wrn; 
reg [3:0] ealuc; 
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IF 级： 

dffe32 program 一 counter (npc f clock,resetn,wpcir,pc); //PC 
cla32 pc_plus4 (pc,32’h4,1'bO,pc4); // PC+4 
mux4x32 next_pc (pc4,bpc,da,jpc,pcsource,npc); // Next PC 
inst 一 mem i_mem (pc f ins); // instruction memory 

IF 级与 ID 级之间的流水线寄 存器： 

df fe32 pc」—r (pc4, clock, resetn, wpcir, dpc4} ; // PC+4 reg 
dffe32 inst_r (ins,clock,resetn,wpcir,inst); // IR 

ID 级： 

assign op = inst[31:26]; 

assign rs = inst [25:21]; 

assign rt = inst(20:16); 

assign rd = inst(15:11); 

assign func = inst[5:0]; 

assign simm = {{16{sext&inst[15]}} f inst[15:0]}; 
assign jpc = {dpc4[31:28 ] f inst[25:0] f 2 f b00}; // jump target 
cla32 br_addr (dpc4,{simm[29:0],2'bOO},1’bO,bpc}; // branch target 
regfile rf (rs,rt,wdi,wrn,wwreg,"clock,resetn,qa,qb); // reg file 
mux4x32 alu 一 a (qa,ealu,malu,mmo,fwda,da); // forward A 

• • 

mux4x32 alu—b (qb,ealu,malu,mmo,fwdb,db); // forward B 
wire swfp,regrt,sext,fwdf,fwdfe,wfpr; 
mux2x32 store 一 f (db,dfb,swfp,dc}; // swcl 
mux2x32 fwd—f 一 d (dc,e3d,fwdf,dd>; // forward fp result 

wire rsrtequ = 」 (da^db); // rsrtequ = (da == db) 

% 

mux2x5 des—reg—no (rd,rt,regrt,drn); // destination reg 
control cu (op,func,rs,rt,fs, ft, rsrtequ, // control unit 

ewfpr,ewreg,em2reg,ern, // from iu 

mwfpr,mwreg,mm2reg,mrn, // from iu 

elw,eln,e2w,e2n,e3w,e3n,stall,st, // from fpu 

讎 

pcsource, wpcir,wreg,m2reg,wmem,jal,aluc, // iu 

aluimm,shift,sext,regrt,fwda,fwdb, // iu 

swfp,fwdf,fwdfe,wfpr, // used by iu 

fwdla,fwdlb,fwdfa,fwdfb,fc,wf,fasmds, // used by fpu 

stall—lw, stall 一 fp, stall 一 lwcl,stall 一 swcl}; // for testing 

// for fpu 

assign ft = inst[20:16]; 
assign fs = inst[15:ll 】； 
assign fd = inst[10:6]; 

id 级与 EXE 级之间的流水线寄 存器： 

always @ (negedge resetn or posedge clock) 


(resetn 

== 

0) begin 




ewfpr 

<= 

0； 

ewreg 

<= 

0; 

em2reg 

<= 

o ； 

ewmem 

<= 

0; 

e jal 

<= 

0； 

ealuimm 

<= 

0； 
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efwdfe 

<= 

0; 

ealuc 

<= 

0; 

eshift 

<= 

0; 

epc4 

<= 

0; 

ea 

<= 

0; 

ed 

<= 

0; 

eimm 

<= 

0; 

ernO 

<= 

0; 

end else begin 





ewfpr 

<= 

wfpr ; 

ewreg 

<= 

wreg; 

em2reg 

<= 

m2reg; 

ewmem 

<= 

wmem; 

e jal 

<= 

jal; 

ealuimm 

<= 

aluimm; 

efwdfe 

<= 

fwdfe; 

ealuc 

<= 

aluc; 

eshift 

<= 

shift; 

epc4 

<= 

dpc4 ; 

ea 

<= 

da; 

ed 

<= 

dd; 

eimm 

<= 

simm; 

ernO 

<= 

drn; 

end 






EXE 级： 







cla32 ret—addr (epc4,32 f h4, 1’ b0,epc8) ; // PC+8 
assign sa = {eimm[5 :0], eimm[31:6]}; // shift amount 
mux2x32 alumina (ea,sa,eshift,alua); // ALU input A 
mux2x32 alu_inb (eb,eimm,ealuimm,alub>; // ALU input B 
mux2x32 save_pc8 (ealuO,epc8,ejal,ealu); // PC+8 if jal 
wire z; 

alu al 一 unit 《 alua,alub,ealuc,ealuO,z); // ALU 
assign ern = ernO | {5{ejal}}; // r31 for jal 

mux2x32 fwd—e (ed,e3d,efwdfe,eb); // forward fp result 

EXE 级与 MEM 级之间的流水线寄 存器： 


always @(negedge 

resetn or 

posedge 

clock) 

if 

(resetn 

==i 

0) begin 





mwfpr 

<= 

0; 

mwreg 

<= 

0 ； 


mm2reg 

<= 

0; 

mwmem 

<= 

0 ； 


malu 

<= 

0 ； 

mb 

<= 

0 ； 


mrn 

<= 

0; 




end 

else begin 






mwfpr 

<= 

ewfpr; 

mwreg 

<= 

ewreg; 


mm2reg 

<= 

em2reg; 

mwmem 

<= 

ewmem; 


malu 

<= 

ealu; 

mb 

<= 

eb; 


mrn 


ern; 




end 








MEM 级： 

data 一 mem d_mem (mwmem, malu, mb, clock, memclock, memclock, mmo); 


MEM 级与 WB 级之间的流水线寄 存器: 


always @ (negedge resetn or posedge clock) 
if (resetn == 0) begin 
wwfpr <= 0; 


wwreg 


<= 0 ; 
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wm2reg 

<= 

0 ； 

wmo 

<= 

0 ； 

walu 

<= 

0 ； 

wrn 

<= 

0 ； 

end else begin 





wwfpr 

<= 

mwfpr; 

wwreg 

<= 

mwreg; 

wm2reg 

<= 

mm2reg; 

wmo 

<= 

mmo; 

walu 

<= 

malu; 

wrn 

<= 

mrn; 


end 


WB 级： 

mux2x32 wb 一 sel (walu,wmo,wm2reg,wdi); 
endmodule 

以下是控制部件模块的代码，所有的控制信号均在此模块产生。 

module control (op,func,rs,rt , fs,ft , rsrtequ, // control unit 

ewfpr,ewreg,em2reg,ern, // from iu 

mwfpr,mwreg,mm2reg,mrn, // from iu 

elw,eln,e2w,e2n,e3w,e3n,stall 一 div 一 sqrt,st, // from fpu 
pcsource,wpcir,wreg,m2reg,wmem,jal,aluc, // iu 

aluimm,shift,sext,regrt,fwda,fwdb, // iu 

swfp,fwdf,fwdfe,wfpr, // for lwcl，swcl 

fwdla,fwdlb,fwdfa,fwdfb,fc,wf,fasmds, // used by fpu 

stall 一 lw,stall—fp,stall 一 lwcl,stall 一 swcl}; // for testing 

input rsrtequ, ewreg, em2reg / ewfpr, mvtreq, mm2reg / mwfpr; 
input elw, e2w, e3w, stall—div—sqrt, st; 
input [5:0] op, func; 

input [4:0] rs,rt,fs,ft,ern,mrn,eln,e2n,e3n; 

output wpcir,wreg,m2reg / wmem,jal,aluimm,shift,sext, regrt; 

output swfp,fwdf,fwdfe; 

output fwdla f fwdlb,fwdfa,fwdfb; 

output wfpr,wf f fasmds; 

output [1:0] pcsource,fwda,fwdb; 

output [3:0] aluc; 

output [2:0] fc; 

output stall—lw,stall 一 fp,stall 一 lwcl,stall 一 swcl; // for testing 

指令 译码： 

wire r—type, i—add, i 一 sub, i—and, i 一 or, i_xor, i — sll, i_srl, i 一 sra, i_jr; 
and ( retype # ~op [5 ] # ^op [ 4 ] f "*op [3 ] f 'op [2 ] f "op [ 1 ] # "op [ 0 ]) ; // r format 
and(i 一 add,retype, func[5] f 〜 func 【 4],~func[3 】， ^func[2] f "func[1] f ” func[0]) 
and (i 一 sub, r 一 type, func [5], *"func(4 ], - func [3】，^func [2], func [1 ], 'func [0]) 
and(i — and,r 一 type, func[5],~func[4] f ‘func[3], func [2], ~func[1],^func[0】> 
and(i_or, r_type, func[5],~ func[4 】 ，^ func[3], func [2],^ func[1 ], func[0]) 
and(i_xor / r 一 type, func[5] , ~ func[4] f ^ func [3] , func[2] f func[1] , "func[0]) 
and(i 一 si1,r 一 type,-func[5], 〜 func[4 】， 〜 func[3],~func[2],'func[1] f "func[0]) 
and(i_srl,r—type, 一 func[5],~func[4], 〜 func[ 3 】 ， ~func[2 】， func[1], - func[0】> 
and(i—sra,r—type,~ func[5],~ func[4],'func [3],' func[2] , func[1], func[0 】 } 
and(i_jr, r—type,'func[5],~ func[4], func[3],~ func[2] f 'func[1], - func[0 】 ） 
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wire i 一 addi, i 一 andi, i 一 ori, i—xori, i 一 lw, i_sw, i 一 beq, i—bne ， i—lui; 
and(i_addi/'op[5] f 'op[4] # op[3] # ~op[2] # ~op[1] f 'op[0]); 
and(i_andi,^op[5] # ~op[4] f op[3] # op[2] / 'op[l] f ~op[0]); 
and (i 一 ori, 'op [5] # ~op [4 ] # op [3], op [2] f "*op [ 1 ] f op [0]); 
and(i_xori,~op[5 】，一 op[4] ， op[3] f op 【 2 】， op[1] ， ~op[0]); 
and(i_lw f op[5] f ^op[4] f ^op[3],'op[2] f op[l], op[0]); 
and(i—sw, op[5] # ~op[4] # op[3],~op[2] f op[1], op[0]); 

and(i_beq f ~op[5], 〜 op[4 】 ， ~op[3], op[2 】， ~op[1],~op[0]); 
and(i_bne, ~op [5] , ~op [4】/ op [3] , op 【 2】 , ’op [ 1 ], op [0]); 
and(i-lui ， ~op[5] ， ~op 【 4 】 ， op[3], op[2 】， op[l], op[0]); 
wire i 一 j,i_jal; 

and(i_j ， ~op[5] # 'op[4] f ~op[3],~op[2], op[1] ， ’op[0]); 

and(i 一 jal, ^op[5]op[4],~op[3], w op 【 2 】， op[l], op[0]}; 
wire f_type,i 一 lwcl,i—swcl,i 一 fadd,i_fsub,i_fmul,i_fdiv,i_fsqrt; 
and(f_type # - op[5], op[4] # 'op[3]^'op[2] f 'op[1] f op[0]); II f format 
and(i_lwcl, op 【 5], op[4],*op[3],"op[2] # "op[l], op[0]); 
and(i_swcl, op[5] f op[4], op[3],~op[2] # ^op[l], op[0]); 

and(i—fadd,f 一 type,~ func[5】，~ func[4],~ func[3],'func[2 】 ， —func[1],~ func[0]); 
and (i 」 sub, f_type, ~ func [5】，""func [4 ], ~ func [3] , ~ func [2], ~ func [ 1 ], func [0]); 
and(i_fmul, f 一 type, 'func [5] f 'func [4] f 'func [3], ~func [2] r func [1], "*func [0]); 
and(i—fdiv,f 一 type,~func[5],~func[4], ~func[3] , ~func[2], func[1], func[0]); 
and(i—fsqrt,f 一 type,~ func[5],~ func[4 】 ，~ func [3], func[2],~ func[1],~ func[0]); 

与 lw 指令相关情况下的流水线暂停和内部 前推： 

wire i_rs = i 一 add | i 一 sub | i—and I i_or I i 一 xor | i_jr | i 一 addi I 

i_andi | i 一 ori | i—xori | i」w | i_sw | i_beq I i — bne | 

i 一 lwcl I i 一 swcl; 

wire i_rt = i 一 add | i 一 sub | i — and | i_or | i 一 xor | i_sll | i_srl | 

i—sra I i_sw | i—beq | i—bne; 

assign stall 一 lw = ewreg & em2reg & (ern != 0) & (i 一 rs & (ern == rs) | 

i—rt & (ern == rt)); 

reg 【 1:0] fwda, fwdb; 

always @ (ewreg or mwreg or ern or mrn or em2reg or mm2reg or rs or 

rt) begin 

fwda = 2 9 bOO; // default forward a: no hazards 
if (ewreg & (ern != 0) & (ern == rs) & 〜 em2reg) begin 
fwda = 2 f b01; // select exe_alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rs) & ~mm2reg) begin 
fwda = 2 9 blO; // select mem 一 alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rs) & mm2reg) begin 
fwda = 2 f bll; // select mem 一 lw 

end 

end 

end 

fwdb = 2 # bOO; // default forward b: no hazards 
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if (ewreg & (ern != 0) & (ern == rt) & ^em2reg) begin 
fwdb = 2 f bOl; // select exe—alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rt) & _mm2reg) begin 
fwdb = blO; // select mem—alu 
end else begin 

if (mwreg & (mrn !* 0) & (mrn == rt) & mm2reg) begin 
fwdb = 2 # bll; II select mem_lw 

end 

end 

end 

end 

iu 的其他控制 信号： 

assign wreg = (i—add | i 一 sub | i 一 and I i_or | i—xor | i 一 sll | 

i — srl I i_sra | i—addi I i_andi | i 一 ori | i 一 xori | 

i—lw I i_lui I i—jal} & wpcir; 

assign regrt = i 一 addi | i 一 andi | i 一 ori | i 一 xori | i」w | i 一 lui | i—lwcl; 
assign jal = i 一 jal; 
assign m2reg = i 一 lw; 

assign shift = i 一 sll | i 一 srl | i—sra; 

assign aluimm = i_addi I i 一 andi | i_ori | i 一 xori I i_lw | i—lui | i_sw | 

i 一 lwcl I i 一 swcl; 

assign sext = i 一 addi I i_lw | i_sw | i 一 beq | i 一 bne | i 一 lwcl | i 一 swcl; 
assign aluc 【 3] = i 一 sra; 

assign aluc[2] = i 一 sub I i_or | i—srl | i—sra | i_ori | i—lui; 

assign aluc[l] = i_xor I i 一 sll | i 一 srl | i 一 sra | i 一 xori | i 一 beq | 

i_bne I i_lui; 

assign aluc[0] = i—and | i—or | i 一 sll | i 一 srl | i 一 sra | i—andi | i 一 ori; 
assign wmem = (i_sw | i 一 swcl) & wpcir; 
assign pcsource[1] = i 一 jr | i 一 j | i—jal; 

assign pcsource[0] = i—beq & rsrtequ | i—bne & ^rsrtequ | i 一 j | 

与 FPU 有关的控制 信号： 

// fop: 000 : fadd 001 : fsub Olx: fmul lOx: fdiv llx: fsqrt 
wire [2:0] fop; 

assign fop[0 】 =i_fsub; // fpu operation control code 
assign fop[1] = i 一 fmul | i 一 fsqrt; 
assign fop[2] = i_fdiv | i—fsqrt; 

// stall caused by fp data harzards 

wire i_fs = i 一 fadd | i—fsub | i—fmul | i_fdiv | i_fsqrt; // use fs 

wire i_ft = i 一 fadd I i 一 fsub | i_fmul | i_fdiv; // use ft 

assign stall_fp = (elw & (i—fs & (eln == fs) I i—ft & (eln == ft}}) | 

(e2w & (i_fs & (e2n == fs) | i_ft & (e2n == ft))); 

assign fwdfa = e3w & (e3n == fs); // forward fpu e3d to fp a 

assign fwdfb = e3w & (e3n == ft); // forward fpu e3d to fp b 

assign wfpr = i 一 lwcl & wpcir; // fp regfile write enable 

assign fwdla = mwfpr & (mrn == fs); // forward mmo to fp a 
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assign fwdlb = mwfpr & (mrn == ft); // forward mmo to fp b 

assign stall 一 lwcl = ewfpr & <i 一 fs & (ern == fs) I i 一 ft & (ern == ft"; 

assign swfp *= i 一 swcl; // select signal 

assign fwdf = swfp & e3w & (ft == e3n); // forward to id stage 

assign fwdfe = swfp & e2w & (ft == e2n); // forward to exe stage 

assign stall_swcl = swfp & elw & (ft == eln); // stall 
assign wpcir = 轉 (stall 一 div—sqrt | stall 一 others}; 

wire stall—others = stall_lw | stall—fp | stall 一 lwcl I stall 一 swcl I st; 
assign fc = fop & {3{~stall 一 others}}; 
assign wf = i 一 fs & wpcir; 
assign fasmds = i 一 fs; 
endmodule 

10.5 存储器模块及 CPU / FPU 的测试 

本节给出存储器模块的代码、 CPU 的测试程序和仿真波形。 

10.5.1 指令存储器和数据存储器 

指令存储器 模块： 

module inst_mem (a,inst); 

input [31:0] a; 
output [31:0] inst; 

lpm 一 rom lpm_rom—component (•address(a[7:2]),.q(inst)); 
defparam 1pm 一 rom 一 component•lpm—width = 32, 

lpm—rom 一 component•lpm — widthad = 6, 

lpm_rom 一 component • lpm_numwords = ’’unused ”， 

lpm—rom 一 component•1pm 一 file = ”inst—mem.mif", 

lpm 一 rom 一 component•1pm 一 indata = "unused ”， 

lpm 一 rom 一 component•lpm_outdata = ” unregistered", 

lpm 一 rom 一 component•lpm—address 一 control = "unregistered"; 

endmodule 

数据存储器 模块： 

module data— mem (we,addr,datain,elk,inclk,outclk,dataout); 

input [31:0] addr,datain; 

input elk,we,inclk,outclk; 

output [31:0] dataout; 

wire write—enable = we & "elk; 

lpm — ram 一 dq ram (.data(datain ), . address(addr[6:2 ]), 

• we(write 一 enable),•inclock(inclk ), 

.outclock(outclk) ,. q(dataout)); 
defparam ram.lpm—width = 32; 

defparam ram.lpm_widthad = 5; 

defparam ram.lpm—indata = "registered"; 
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defparam 

defparam 

defparam 

endmodule 


ram.lpm—outdata = "registered"; 

ram.lpm 一 file = "data^mem.mif"; 

ram.lpm 一 address 一 control = "registered"; 


10.5.2 CPU / FPU 的测试程序 


以下是 mif 格式的测试程序代码。主要目的是测试与 FPU 有关的指令的执行， 
但为了保证 CPU 的正确性， IU 指令的测试代码也列在后半部分，基本上与第8章的 
代码相同。浮点部分的代码用来测试与 Iwcl 指令的数据相关、浮点加减乘法指令之 
间的数据相关、 swcl 指令与浮点运算指令的数据相关、浮点除法和开方指令以及它 
们之间的数据相关等。 


DEPTH = 64; 

WIDTH = 32; 

ADDRESS 一 RADIX = HEX; 
DATA—RADIX = HEX; 


CONTENT 

BEGIN 


% Memory depth and width are required % 
% Enter a decimal number % 
% Address and value radixes are optional % 
% Enter BIN, DEC, HEX, or OCT; unless % 
% otherwise specified, radixes = HEX % 


[0..3F] : 00000000; % Range —— Every 


0 : 00000820; % (00) add 

1 : C4200000; % (04) lwcl 

2 : C4210050; % (08) lwcl 

3 : C4220054; % (0C) lwcl 

4 : C4230058; % (10) lwcl 

5 : C424005C; % (14) lwcl 

6 : 46002100; % (18) add.s 

7 : 460418C1; % (1C) sub.s 

8 : 46022082; % (20) mul.s 

9 : 46040842; % (24) mul.s 

A : E4210070; % (28) swcl 

B : E4220074; % (2C) swcl 

C : E4230078; % (30) swcl 

D : E424007C; % (34) swcl 

E : 20020004; % (38) addi 

F : C4230000; % (3C) 13: lwcl 

10 : C4210050; % (40) lwcl 

11 : 46030840; % (44) add.s 

12 : 46030841; % (48) sub.s 

13 : E4210030; % (4C) swcl 

14 : C4050004; % (50) lwcl 

15 : C4060008; % (54) lwcl 

16 : C408000C; % (58) lwcl 

17 : 460629C3; % (5C) div,s 

18 : 46004244; % (60) sqrt.s 

19 : 46004A84; % (64) sqrt.s 


address from 

0 ^ 

to 3F = 00000000 

% 

rl. 

r0 # rO 

# 

address of data[0] 

% 

fo, 

0(rl) 

# 

load fp data 

% 

fl, 

80 (rl) 

# 

load fp data 

% 

f2, 

84 (rl) 

# 

load fp data 

% 

f3. 

88 (rl) 

# 

load fp data 

% 


92(rl) 

# 

load fp data 

% 

f4, 

f4, fO 

# 

f 4 : stall 1 

% 

f3. 

f3, f4 

# 

f 4 : stall 2 

% 

f2. 

f4 f 12 

# 

mul 

% 

fl. 

.fl, f4 

# 

mul 

% 

fir 

112(rl) 

# 

fl: stall 1 

% 

f2, 

116(rl) 

# 

store fp data 

% 

f3. 

120(rl) 

# 

store fp data 

% 

f4. 

124(rl) 

# 

store fp data 

% 

r2. 

r0 # 4 

# 

counter 

% 

f3. 

0(rl) 

# 

load fp data 

% 

fl. 

80(rl) 

# 

load fp data 

% 

fl. 

fl, f3 

# 

stall 1 

% 

fl. 

fl, f3 

# 

stall 2 

% 

fl. 

48 (rl) 

# 

stall 1 

% 

f5. 

04 (rO) 

# 

load fp data 

% 

f6. 

08 (rO) 

# 

load fp data 

% 

f8. 

12 (rO) 

# 

load fp data 

% 

tl, 

f5, f6 

# 

div 

% 

f9. 

f8 

# 

sqrt 

% 

fl0 f 

f9 

# 

sqrt 

% 
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1A : 

2042FFFF; 

% (68) 

addi 

r2. 

r2. 

-1 

IB : 

1440FFF3; 

% (6C) 

bne 

r2. 

r0. 

13 

1C : 

20210004; 

%(70) 

addi 

rl, 

rl # 

4 


1D : 3C010000 
1E : 34240050 


1F 

20 

21 

22 


36 


39 


END 


0c000038 

20050004 

ac820000 

8c890000 


23 : 01244022 

24 : 20050003 

25 : 20a5ffff 

26 : 34a8ffff 

27 : 39085555 

28 : 2009ffff 


2E : 00000000 
2F : 08000025 
30 : 00000000 


08000036 


37 : 00000000 

38 : 00004020 


8c890000 


3A : 01094020 
3B : 20a5ffff 
3C : 14a0fffc 
3D : 20840004 
3E : 03e00008 
3F : 00081000 


# counter - 1 

* finish? 


% 

% 


address+4, DELAY SLOT % 


% (74) iu test : lui rl, 0 


% (78) 

% (7C) call: 


ori r4, rl, 80 
jal sum 


% (80) dslot1 : addi r5, rO, 4 
% (84) return : sw 


lw 


r2 # 0(r4) 
r9, 0(r4) 
sub r8, r9, r4 
addi r5, rO, 3 


% ( 88 ) 

% (8C) 

% (90) 

% (94) loop2 : addi r5, r5, -1 


# address of data[0] 

# address of data[0 】 

# call function 

# DELYED SLOT(DS) 

# store result 

# check sw 

# sub: r8 < —— r9 - r4 

# counter 

# counter - 1 


% 

% 

% 

% 

% 

% 

% 

% 

% 


% (98) 
% (9C) 
% (A0) 


ori r8, r5, Oxffff # zero-extend: OOOOffff % 


xori r8, r8, 0x5555 
addi r9, rO, -1 


zero-extend: OOOOaaaa % 
sign-extend: ffffffff % 


29 

• 

• 

312affff; 

%(A4) 

andi 

rlO, 

r9. 

Oxffff# 

zero-extend: OOOOffff 

% 

2A 

• 

• 

01493025; 

% (A8) 

or 

r6 f 

rlO, 

r9 

# 

or: 

ffffffff 

% 

2B 

• 

• 

01494026; 

% (AC) 

xor 

r8. 

rlO, 

r9 

# 

xor : 

ffffOOOO 

% 

2C 

• 

• 

01463824; 

% (B0) 

and 

r7 # 

rlO, 

r6 

# 

and: 

OOOOffff 

% 

2D 

• 

• 

10a00003j 

%(B4) 

beq 

r5 # 

r0. 

shift 

# 

if r5 

= 0, goto shift 

% 


% (B8) dslot2 : nop 
%(BC) j 

% (CO) dslot3 : nop 


loop2 


# DS 

# jump loop2 

# DS 


31 

• 

• 

2005ffff; 

% (C4) shift : 

addi 

r5. 

r0 # 

-1 

* 

r5 

s 

ffffffff 

32 

參 

• 

000543c0; 

% (C8) 

sll 

r8. 

r5. 

15 

# 

<< 

15 

=ffff8000 

33 

• 

• 

00084400; 

% (CC) 

sll 

r8. 

r8. 

16 

# 

<< 

16 

= 80000000 

34 

# 

• 

00084403; 

% (DO) 

sra 

r8. 

r8 # 

16 

# 

>>> 

16 

=ffff8000 

35 

• 

• 

000843c2; 

%(D4) 

srl 

r8. 

r8. 

15 

# 

>> 

15 

= OOOlffff 


% (D8) finish : j 
% (DC) dslot4 : nop 


finish 


% (E0) sum: 

% (E4) loop: 
% (E8) 

% (EC) 

% (F0) 


add r8, rO, rO 


lw 


r9, 0(r4) 


add r8, r8, r9 
addi r5, r5, -1 
bne r5 # r0 f loop 


% (F4) dslot5 : addi r4, r4, 4 


% (F8) 




r31 


# dead loop 

# DS 

# sum 

# load data 

# sum 

# counter - 

# finish? 

# address 

# return 


4, DS 


% (FC) dslot6: sll r2, r8, 0 


move res. to vO, DS 


% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 


数据存储器的 内容: 


DEPTH 

WIDTH 




32 

32 


% Memory depth and width are required 
% Enter a decimal number 


% 

% 


ADDRESS.RADIX 
DATA RADIX = 


HEX 


% Address and value radixes are optional % 


HEX 


% Enter BIN, DEC, HEX, or OCT; unless 


otherwise specified, radixes 


HEX 


% 

% 


CONTENT 
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BEGIN 

[0..1F 】 ： OOOOOOOOf % Range--Every address from 0 to IF = 00000000 % 


0 

BF800000; 

% 

(00) 

1 

01111111 

00. 

.0 

fp -1 % 


1 

40800000; 

% 

(04) 

% 






2 

40000000; 

% 

(08) 

% 






3 

41100000; 

% 

(0C) 

% 






14 

40C00000; 

% 

(50) 

0 

10000001 

10. 

.0 

data [0] 

4.5 % 

15 

41C00000; 

% 

(54) 

0 

10000011 

10. 

.0 

data[1) 

% 

16 

43C00000; 

% 

(58) 

0 

10000111 

10. 

.0 

data[2] 

% 

17 

47C00000; 

% 

(5C) 

0 

10001111 

10. 

.0 

data[3] 

% 

END ; 











10.5.3 CPU / FPU 的仿真波形 

仿真波形很长，本书不可能全部列出，图 10.23 〜图 10.29 示岀重点部分的 波形。 



m 10.23 CPU 仿真波形图 （〗wcl 和 add.s) 


图 10.23 中在 24ns 〜 28ns (PC = 18) 期间取 add.s f4, f4, fD 指令 （ IF )。 它与 PC = 
14 处的指令 lwcl f4, 92(rl) 数据相关，因此在 28ns 〜 32ns (ID) 期间 stalLlwcl = 1 ， 
流水线暂停一个周期。 PC = 1C 处的指令 sub.s f3, f3, f4 又与 adds 数据相关，暂停两 
个周期 （ stall4) = 1) 。 add.s 的浮点加法结果 (47C00000 + BF800000 = 47BFFF80) 在 
48ns 〜 50ns 写回 （ WB )。 图 10.24 中， PC = 28 处的指令 swcl fl, 1 12(rl) 与 mul.s 数 
据相关，在 56ns 〜 60ns 期间 stall_swcl = 1 ， 暂停 一 个周期。 
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Q, fpu 


Master Time 


Q 回区 I 




Poirier 


■ 


44 0 ns 


Interval 1 -1.G4 


Start: 


ps End: 17 


52.0 ns 


clock 

pc 


iTriTiHB 



參 34 I ins 
珍 67 I wd 


■ 




47BFFF80 


47 


E4 


00 


«#106 


107 I count div 


113 


r^rvi 


00 


00 


诊 119 sta 


O 


20 stall Iwcl 


El 


i#124 


< 


121 I stalljp 

22 j stall.swcl 

23 I stall Iw 


10.24 CPU 仿真波形阁 （ mul.s 和 swc 


5L fpU —1 _IU.V¥ff 


Mastei Time Bar: 1.7 


Pointer: ； 355 36 ns Intecvd: -1,34 


Start: 


q 回® 


End: 1.7 us 




380.0 ns 


FJI y «iu u 


64 


46004244 


iTiliTITf 


000 


46 


i 


録 107 I count^div 




13 


■ 


stall 

• 120 stalljwcl 

<#121 stall.fp 

22 stall swcl 

鎌 

23 stall kv 


00 


W 義獅热聊遞进纖纖挪 




data hazard 


炒 124 


All 

一一 _ 


—N 


> 




10.25 CPU 仿真波形图 （ div . s、s 
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图 10.26 CPU 仿真波形图 （ div.s 开始 ) 
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第 10 章带有 FPU 的流水线 CPU 及其 Verilog HDL 设计 



阁 10.28 带有 FPU 的流水线 CPU 仿真波形图 ( sqrt . s 开始) 



阁 10.29 带有 FPU 的流水线 CPU 仿真 波形阁 ( sqrt . s 结束) 



10.6 习题 
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阁 10.25 示出 div . s 、 sqrt . s 、 sqrt . s 指令波形的总体图。由于两条开方指令数据相 
关，因此 stalLfp = 1。图 10.26 中 PC = 5 C 处的指令是 div.s f 7, f 5, f 6 0 它启动除法 
计数器 ， stall = 1，一直持续到计数器的值等于 OF (见图10.27)。紧接着的是开方指 
令 sqrts f 9, fB ，它也启动计数器 ， stall = 1, 一直持续到计数器的值等于十六进制的 
15 ( 见图10.28)。然后又是一条开方指令： sqrt.s fl 0, f 9 ,并且与 t 一条开方指令数据 
相关= 1)。启动计数器 ， stall = 1，一直持续到 384 ns 处（见图10.29)。然 
后把一条除法指令和两条开方指令的执行结果分别写入浮点寄存器07、09和 0 A 中 

(ww = 1 )。 

10.6 习题 

1. 使用本章 CPU 能够执行的指令，试着编写一些有实际意义的、使用浮点运算 
的程序，将其转换成 mif 格式，进行仿真并检验结果。 

2. 试着把浮点寄存器与整数寄存器之间的数据传输指令 mfcl 和 mtcl 以及浮点数 
与整数之间的转换指令 cvt . s . w 和 cvt . w . s 加入 CPU 的设计中。 


mfcl 

rt. 

f s 

# 

rt 

< —— 

f s 



mtcl 

rt f 

f s 

# 

f s 

< —— 

rt 



cvt. s . w 

fd. 

f s 

# 

fd 

< —— 

convert. 

一 and 一 

.round (fs) 

cvt. w. s 

fd. 

f s 

# 

fd 

< -一 

convert. 

—and— 

.round (fs) 


指令格式如下所示。 


指令 

PI :26] 

R 5:21] 

00:16] 

[15:11] 

[10:6] 

[5:0] 

意义 

mfcl 

010001 

00000 

rt 

fs 

00000 

000000 

取浮点寄存器字 

mtcl 

010001 

00100 

rt 

fs 

00000 

000000 

存浮点寄存器字 

cvt . s.w 

010001 

10100 

00000 

fs 

fd 

100000 

整数转成浮点数 

cvt . w.s 

010001 

™10000 

00000 

fs 

fd 

100000 

浮点数转成整数 


3. 试考虑加入异常(包括浮点计算结果异常）和中断处理。 

4. 实现浮点除法和开方指令以完全的流水线方式 执行： 每个周期可以接收一条浮 
点除法或开方指令，不停流水线，除非数据相关。试使用以下三种 方法： 

1 ) 使用不恢复余数算法实现流水线的单精度浮点除法和开方会降低电路的复 
杂性且易于实现。 

2) 使用较大的 ROM 得到足够精度的 xo , 然后只用一次 Newton 迭代。 

3) 增加一条新的指令，它只实现一次 Newton 迭代。如果一次单精度浮点除 
法或开方运算需要3次迭代，则连续执行3次这条指令（双精度浮点除法 
或开方运算执行4次)。 
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5. 参考图10.30，设计一个简单的超标量 （ Superscalar) 流水线 CPU ， 实现浮点指 
令与整数指令的并行执行。图中的 w 代表流水线的结果写回级，占用半个时 
钟周期。浮点部件的执行级占用三个周期 （ E1 〜 E 3)， 除法和开方迭代在 ID 级 
完成(停流水线)。 



图 10.30 简单的超标量 CPU 流水线时序图 

6. 设计一个复杂的超标量流水线 CPU ， 使浮点加、减、乘、除和开方指令能并行 
执行。整数部件也可有多个执行部件，使得不相关的整数指令也能并行执行。 



第 11 章多线程 CPU 及其 Verilog HDL 设计 


多核 ( Multi - Core ) 及多线程 ( Multithreading ) 技术已被世界知名计算机公司（比如 
Intel 、 IBM , AMD 、 Fujitsu 等）广泛用于 CPU 的设计中。本章主要讨论多线程 CPU 
的原理及设计。 

11.1 多线程 CPU 概述 

本节简要介绍多线程的基本概念以及能够并行执行多线程的 CPU 的基本结构。 

11.1.1 多线程 CPU 的基本概念 

一个线程是指一段程序在执行过程中不依赖其他线程产生的数据。见图 11.1, 
线程 D 和线程 E 从理论上讲可以并行执行，但线程 F 只有等线程 D 和线程 E 均执行 
完才能开始执行。 



图 11.1 线程的基本概念 

虽然有些线程可以并行执行，但如果 CPU 不提供相应的硬件支持，多个本来可 
以并行执行的线程也只能轮流被执行，如图 11.2( a ) 所示。传统的 CPU 就属于这种 
情况。从任意一个时间点来看， CPU 实际上只在执行一个线程。我们称其为单线程 
CPU 。 依线程切换的方式不同，单线程 CPU 又可分为两种，这里不再详细描述。 



线程 A 线程 A 



( b ) 多线程 CPU 并行执行多线程 


时间 


图 11 .2 多线程 CPU 的基本概念 

而多线程 CPU 则不同。如图 11.2( b ) 所示，在时间段 tl 、 t 3 和 t 5 中，两个线程 
可以并行地被执行。这样的 CPU 需要有多个程序计数器以及能够完成运算功能的多 
个功能部件 （Functional Units )。 与单纯的多核技术相比，多线程 CPU 的好处是功能 
部件可以得到充分的利用（多个线程共享功能部件)[ 6 , 7 , 2 】。 
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11.1.2 多线程 CPU 的基本结构 

图 11.3 示出的是最简单的双线程 CPU 的一个例子。图中有两个程序计数器 
( PC 0 和 PC 1) 及两个寄存器堆 （Register File 0 和 Register File 1 ) ， 它能同时执行两个线 
程，相当于有两个逻辑意义上的 CPU 。 三个功能部件(两个 ALU 和一个 FPU ) 被两个 
逻辑 CPU 所共享。当两个线程同时要求使用 FPU 时，其中一个的要求得到满足，而 
另一个必须等待。下面一节详细讨论线程的选择方法。 


PC0 



m 11.3 多线程 cpu 的基本结构 


11.2 多线程 CPU 设计 

本节给出多线程 CPU 的线程选择方法、详细电路及具体的 Verilog HDL 代码。 
11.2.1 线程的选择方法 

假设多线程 CPU 中某种功能部件只有一个，问题就出 现了： 当多个线程同时要 
使用这个功能部件时， CPU 到底选择哪个线程？我们可以用一个简单的计数器来选 
择一个线程。如果想让某些线程有较高的优先级得到执行，我们可以增大计数器的 
计数范围，多选一些计数值让那些线程有优先被执行的权力。比如一个 3 位的计数 
器可以使两个线程的优先级之比为 5 : 3。 本章给出双线程 CPU 的设计方法，而且令 
两个线程有相同的优先级。 

图 11.4 示出的是双线程 CPU 选择线程的电路，模块名为 selthread 。 信号 fasmdsO 
和 fasmds 1 分别表示线程 0 和线程 1 是否有使用浮点部件的 请求； 信号 dt 表示在 ID 
级被选中的 线程； 信号 stO 和 stl 分别表示是否要停线程 0 和线程 1 的流水线。左边 
的一个 dffe 和一个非门构成一个计数器，输出为 cnt 。 右边 4 个 dffe 是流水线寄存 
器，它们的输出分别对应流水线的 El 、 E 2、 E 3 和 WB 级。中间的 thread_sel 模块是 
电路的主要部分，它的真值表在表 11.1 中给出。 



11.2 多线程 CPU 设计 


339 


e 


elm 



fasmdsO 

fasmdsl 


elk 


wt 

e3t 

e2t 

elt 

dt 

stO 

stl 


ID 


El 


E2 


E3 


WB 


图 11.4 线程的选杼电路 selthread 
表 11.1 线程的选择方法（图 1 1.4 中的 thread.se! 模块 ) 


输入 

_ 

输出 

__ 

ent 

fasmdsO 

" - - - T 

fasmds 1 

1 dt 

stO 

stl 

0 

1 

0 

- 4 

0 

0 

0 

0 

1 

1 I 

I 0 

0 

1 

0 

0 

1 

1 

0 

0 

1 

0 

1 

1 

0 

0 

1 

1 

1 

1 

1 

0 

1 

1 

0 

0 

0 

0 

X 

0 

0 

0 

0 

0 


表 11.1 的内容应该不难理解。当 fasmdsO 和 fasmdsl 均为1时（都有请求)，根据 
ent 选择线程 dt 并封锁线程 stO 和 stl 分别是线程0和线程1的暂停信号。由此， 
我们得到3个输出信号的逻辑表 达式： 

dt = 'fasmdsO & fasmdsl | ent & fasmdsl; 
stO = ent & fasmdsO & fasmdsl; 
stl = ~cnt & fasmdsO & fasmdsl; 


11.2.2 多线程 CPU 的详细电路 

我们已经在第 10 章介绍了带有 FPU 的流水线 CPU 的设计，以此为基础，本小 
节详细介绍双线程 CPU 的设计。 

我们的双线程 CPU 有两个 ALU 和一个 FPU 。 本来两个 ALU 应该被两个线程所 
共享，为了简化设计，我们的双线程 CPU 为每个线程分配一个固定的 ALU 。 这相当 
于 CPU 中有两个独立的 IU 和一个共享的 FPU 。 

如果两个线程中的任何一个线程完全没有浮点指令时，两个线程可以互不干扰 
地并行执行。只有两个线程同时要执行浮点指令时，才会出现竞争 FPU 的情况。因 
此，多线程 CPU 设计的重点和难点在于如何解决对共享部件的竞争的问题。 
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我们已经在 11.2.1 小节介绍了当竞争出现时如何选择线程的电路。从被选中的 
线程的浮点寄存器堆读出的数据要被送到 FPU, 因此我们需要在 FPU 的数据输入端 
使用一个二选一多路器 （ Multiplexer )。 另外， FPU 的计算结果也要被写人相应线程的 
浮点寄存器堆中，因此我们要在 FPU 的输出端使用一个类似于反向多路器的电路， 
我们暂且称其为分配器 （ Demultiplexer), 见图11.5。 



(a) 多路器 （ b) 分配器 


图 11.5 分配器与多路器的比较 


比如浮点寄存器堆的写使能信号就要用到分配器。分配器输出信号的逻辑表达 
式如下，其中的信号 S 指明把输入信号 w 分配 给谁： wo 还是 wl 。 

w0 = ~s & w; 
wl = s & w; 

有些信号并不需要分配，比如目的寄存器号和计算结果。有了多路器和分配器 
这两件神器，一个双线程的 CPU 的结构大致就出来了，见图11.6。图中有两个整 
数部件 iuO 和 iul ;两个浮点寄存器堆以及相应的用于数据内部前推的多路器。图中 
fpu 模块左边的是多路器 （ mux )， 右边的是分配器 ( demux ) o 分配器的选择信号来自于 
11.2.1 小节描述的 selthread 模块，即图中右下角部分。 

要被分配的信号处在不同的流水线级： stall 、 elw 、 e 2 w 、 e 3 w 和 ww 分别处在 
流水线的 ID 、 El 、 E 2、 E 3 和 WB 级，相应的分配信号分别为 dt 、 elt 、 e 2 t 、 e 3 t 和 
wt 。 分配器的输出 wwO 和 wwl 分别接到线程0和线程1的浮点寄存器堆的写使能 
端，其余的接到相应的 iu 。 selthread 模块的输出信号 stO 和 st 1也接到相应的 iu ， 用 
于暂停流水线，暂停的原因是 FPU 的资源竞争。 

多路器 mux 的选择信号是 ID 级的 dt 。 多路器的两路输入分别来自两个线程， 
其中除了浮点数据来自浮点寄存器堆右面的多路器，其余的均来自整数部件。整数 
部件 iuO 和 iul 是等价的，与我们在第10章描述的 相同； ftm 模块也与第10章描述 
的相同。 

11.2.3 多线程 CPU 的 Verilog HDL 代码 

以下是双线程 CPU 的 Verilog HDL 代码，模块名为 fpu ^ Ju , 它实现图 11.6 的 
电路。该模块的输出信号较多，完全是为了测试方便而设置的。 

module fpu 一 2 一 iu (resetn,memclock,clock, 

pcO,instO,ealuO,maluO,waluO,wwO, 
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3 ‘ 



图 11.6 多线程 CPU 的模块图 


stall 一 IwO,stall 一 lwclO,stall_swclO,stall_fpO,stallO, stO, 
pci,instl,ealul,malul,walul,wwl, 

stall—lwl,stall 一 1well,stall_swcll,stall_fpl,stalll,stl, 
wn,wd,count 一 div,count 一 sqrt,eln,e2n,e3n,e3d,e); 
input clock,memclock,resetn; 
output [31:0] pcO,instO,ealuO,maluO,waluO; 
output [31:0] pci,instl,ealul,malul,walul; 

output wwO,stall 一 IwO,stall 一 lwclO,stall—swclO,stall_fp0 / stallO, stO; 
output wwl,stall 一 lwl,stall—lwcll,stall—swell,stall 一 fpl,stalll,st1; 
output e; // enable 
output [31:0] e3d,wd; 
output [4:0] eln, e2n, e3n, wn; 
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output [4:0] count 一 div, count—sqrt ; 

以下是线程 0( 图 11.6 中的 iuO ) 的代码，其中的 iu 模块已在第10章 给出： 

wire [31:0] qfa0 / qfbO, faO, fb0 / dfaO,dfbO,mmoO,wmoO; 
wire [4:0] fsO,ftO,fdO,wrnO; 
wire [2:0] fcO; 

wire fwdlaO, fwdlbO,fwdfaO,fwdfbO,wf0,fasmdsO; 

iu iuO (eln,e2n,e3n, elwO,e2w0,e3w0, stallO,stO, 

dfbO,e3d, clock,memclock,resetn, 

fsO,ft0,wmoO,wrnO,wwfprO,mmoO,fwdlaO,fwdlbO,fwdfaO,fwdfbO f 
fdO,fcO,wf0,fasmdsO,pcO,instO,ealuO,maluO,waluO, 
stall 」 wO, stall_fpO, stall_lwclO, stall 一 swclO); 
regfile2w fprO (fsO,ftO,wd,wn,wwO,wmoO,wrnO,wwfprO, 

•clock,resetn,qfaO,qfbO); 

mux2x32 fwd 一 f_load 一 aO (qfaO,mmoO,fwdlaO,faO>; // forward lwcl to fp a 

mux2x32 fwd 一 f_load 一 bO (qfbO,mmoO,fwdlbO,fbO); // forward lwcl to fp b 

mux2x32 fwd—f 一 res 一 aO (faO, e3d, fwdfaO, dfaO>; // forward fp res to fp a 

mux2x32 fwd 一 f 一 res 一 bO (fbO,e3d,fwdfbO,dfbO); // forward fp res to fp b 

以下是线程 1( 图 11.6 中的 iul ) 的代码，其中的 iu 模块已在第10章 给岀： 

wire [31:0] qfal, qfbl, fal, fbl, dfal, dfbl, mmol, wmol; 
wire [4:0] fsi, ftl,fdl,wrnl; 
wire [2:0 】 fcl; 

wire fwdlal,fwdlbl,fwdfal,fwdfbl,wfl,fasmdsl; 

iu iul (eln,e2n,e3n, elwl,e2wl,e3wl, stalll,stl, 

dfbl,e3d, clock,memclock,resetn, 

fsl,ftl,wmol,wrnl,wwfprl,mmol, fwdlal, fwdlbl, fwdfal, fwdfbl, 
fdl,fcl,wfl,fasmdsl,pci,inst1,ealul,malul,walul, 
stall 一 lwl,stall 一 fpl,stall 一 lwcll,stall 一 swell); 
regfile2w fprl (fsl,ftl,wd f wn,wwl,wmol,wrnl,wwfprl, 

**clock, resetn, qfal, qfbl); 

mux2x32 fwd_f_load 一 al <qfal,mmol,fwdlal,fal); // forward lwcl to fp a 

mux2x32 fwd 一 f 」 oad 一 bl (qfbl,mmol, fwdlbl, fbl) ; // forward lwcl to fp b 

mux2x32 fwdres 一 al <fal, e3d, fwdfal, dfal > ; // forward fp res to fp a 

mux2x32 fwd_f_res 一 bl (fbl,e3d,fwdfbl,dfbl); // forward fp res to fp b 

以下是共享的浮点部件（图1 1.6 中的 lpu ), 代码已在第10章 给出： 

wire [1:0] elc,e2c,e3c; 

fpu fp — unit (dfa,dfb,fc f wf f fd,1 f bl,clock,resetn,e3d f wd,wn,ww, 

stall,eln,elw,e2n,e2w,e3n,e3w, 
elc,e2c,e3c,count 一 div,count—sqrt/e); 

多路器，选择线程 0 还是线程 1( 图 11.6 中的 mux ): 

% 

wire [31:0] dfa,dfb; // fp inputs a and b 

wire [4:0] fd; // fp destination register number 
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wire [2:0] 
wire 

assign dfa 
assign dfb 
assign fd 
assign wf 
assign fc 


fc; // fp operation code 

wf; // fp register file write enable 

=dt? dfal : dfaO; 

=dt? dfbl : dfbO; 

=dt? fdl : fdO; 

=dt? wf1 : wf0; 

=dt? fcl : fcO; 


分配器（图 11.6 中的 demux) : 


// demux: for thread 0; for thread 1 


wire 

stallO = 

stall 

& 

~dt; 

wire 

stalll 

— 

stall 

& 

dt; 

// 

ID 

stage 

wire 

elwO = 

elw 

& 

~elt; 

wire 

elwl 

= 

elw 

& 

elt; 

// 

El 

stage 

wire 

e2w0 = 

e2w 

& 

'e2t; 

wire 

e2wl 

s 

e2w 

& 

e2t; 

// 

E2 

stage 

wire 

e3w0 = 

e3w 

& 

_e3t; 

wire 

e3wl 

= 

e3w 

& 

e3t; 

// 

E3 

stage 

wire 

wwO = 

ww 

& 

"wt; 

wire 

wwl 

= 

ww 

& 

wt; 

// 

WB 

stage 


线程选择信号及流水线暂停信号的产生（图 11.6 中的 selthread, 细节见图 11.4)： 

// thread selection 

assign stO = cnt & fasmdsO & fasmdsl; // stall thread 0 

assign stl = ~cnt & fasmdsO & fasmdsl; // stall thread 1 

wire dt = ~fasmdsO & fasmdsl | cnt & fasmdsl; // selected thread 


// count for thread selection 
reg cnt; 

always @(negedge resetn or posedge clock) 
if (resetn == 0) begin 
cnt <= 0; 

end else if (e) begin // enable 
cnt <= "cnt; 

end 

// pipelined thread info 
reg elt,e2t,e3t, wt; 

always @(negedge resetn or posedge clock) 
if (resetn == 0) begin 

elt <= 0; e2t <= 0; e3t <= 0; wt <= 0; 

end else if (e) begin // enable 

elt <= dt; e2t <= elt; e3t <= e2t; wt <= e3t; 

end 

endmodule 



11.3 多线程 CPU 的仿真波形 

在本测试中，两个线程执行同样的程序。我们使用第10章的测试程序，重点给 
出浮点运算指令执行时的波形。以下图中最上部分是线程0的信号，中间部分是线 
程1的信号，最下部分是公用信号 （FPU 部分)。执行的指令列在波形的下面。 
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图 11.7 多线程 CPU 仿真波形图（线程 0 浮点加和线程1浮点加) 


图 11.7 中线程0流水线的第一个暂停是由 add . s 指令与 lwcl 数据相关 ( stallJwclO ) 
或浮点部件资源冲突 （ stO ) 引起的。线程1的流水线暂停两个周期， 一 个是由 adds 
指令与 lwcl 数据相关引起的、另一个是由浮点部件资源冲突引起的。由于 sub . S 与 
add . s 数据相关，流水线还要暂停两个周期。线程0和线程1分别在 48 ns 〜 50 ns (前 
半个周期）和 52 ns 〜 54 ns 处把 wd = 47 BFFF 80 写入各自的 wn = 04浮点寄存器。 
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1^1 11.8 多线程 CPU 仿真波形图 （ div.s 、 sqrt.s 、 sqrt.s 指令序列总体阁 ) 


图 11.8 乐出的是执行 div.s 、 sqrt.s 、 sqrt.s 指令序列时的总体波形。下边密密麻麻 
的是除法计数器和开方计数器的值，在此期间完成 Newton-Raphson 迭代。两个线程 
轮流执行，先从线程 0 开始。线程 0 迭代时， stallO 为 1 ( 暂停自己的流水线等待迭代 
完成 ) 、 stl 为 1 ( 由于资源冲突而暂停对方的流水 线 ) ； 线程 1 迭代时， stalll 为 1、 stO 
为 1 。我们将陆续给出能够看清计数器值的详细的波形。 
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图 11.9 多线程 CPU 仿真波形图（线程 0 浮点除开始 ) 


图 11.9 示出的是线程0开始执行 div.s 指令时的波形。从1 40 ns (pcO = 0000005 C ) 
开始取 div.s f 7, f 5, f 6 指令 （ IF ); 从 144 ns 开始译码并进行除法的 Newton-Raphson 迭 
代 （ ID )。 在译码期间， stallO = 1,除法计数器开始从0计数。在 148 ns 处，线程1 
也对 div.s 指令译码，但这时线程0正在使用浮点部件，因此 stl = 1。 
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17 : 460629C3; % (5C) div.s fl, f5, f6 # div % 

18 : 46004244; % (60) sqrt.s f9, f8 # sqrt % 

19 : 4 6004A84; % (64) sqrt.s flO, f9 # sqrt % 


图 11.10 多线程 CPU 仿真波形图（线程丨浮点除开始） 

图 11.10 示出的是浮点部件连续执行需要迭代的指令（除法指令或开方指令）时 
的情况。图中的 208 ns 处， stalio 变0,导致使能信号 e 变1，进而结束线程0的 div.s 
指令的 ID 级。从 212 ns 处开始，线程1进入 div . s 指令的 ID 级 ， stalll = 1。与此同 
时，线程0试图对 sqrts 指令进行译码，但这时线程1正处在 div . s 指令的译码期间， 
线程0必须等待 （stO = 1)。 
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图 11.11 多线程 CPU 仿真波形图（线程 0 浮点开方 开始 ) 


图 11.11 示出的也是浮点部件连续执行需要迭代的指令（除法指令或开方指令) 
时的情况。图中的 276 ns 处， stam 变0,导致使能信号 e 变1，进而结束线程1的 
div . s 指令的 ID 级。从 280 ns 处开始，线程0进人 sqrt . s 指令的 ID 级， stall 0= l 。 与 
此同时，线程1试图对 sqrt . s 指令进行译码，但这时线程0正处在 sqrt . s 指令的译码 
期间，线程1必须等待 （Stl = 1)。 
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图 11.12 多线程 CPU 仿真波形图（保存浮点除法结果、线程0浮点开方开始） 

图 11.12 示出的是线程1完成第一条 sqrts 的译码，然后线程0开始对第二条 
sqrts 指令进行译码的波形。线程1也试图对第二条 sqrts 指令进行译码，但由于资 
源冲突，它必须等待 （stl = 1)。由于第二条 sqrt . s 指令与第一条 sqrt . s 数据相关，因 
此 stalLfpO = 1, stall_fpl = 1。从 464 ns 开始，线程0和线程1相继把 div . s 指令的 
执行结果 (40000000) 写人各自的浮点寄存器 f 7。 
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图 11.13 多线程 CPU 仿真波形图（保存浮点开方结果 ) 


% 

% 

% 


图 11.13 示出的是线程1保存第二条 sqrts 指令的执行结果前后的波形。当开方 
计数器值为十六进制的16时， ID 级将结束，然后经过 El 、 E 2、 E 3, 线程1在 WB 
级把浮点开方结果 (3 FDDB 3 D 7) 写入浮点寄存器 flO 。 接下来的两个线程的指令都不 
是浮点除法或浮点开方指令，因此两个计数器的值均为0、使能信号 e 为1。其他指 
令的波形比较简单，就不列出了。 
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11.4 习题 

1. 重新设计线程选择电路，使得线程0被执行的概率高于线程1被执行的概率， 
比如 (5/8) : (3/8)0 

2. 重新设计 FPU 和线程控制 部件： 将 FPU 的加减、乘、除和开方 分开： 若各线 
程的操作不同，则可以并行执行，比如一个线程在做除法，而同时另一个线程 
在做开方。 

3. 试设计一个4线程的 CPU 。 
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总的来讲，存储器 ( Memory ) ,特别是随机访问存储器 RAM (Random Access 
Memory ), 是保存程序（指令和数据）的临时场所。当一个程序要投人运行时，操作 
系统把这个程序整个或部分地从硬盘调入到存储器，然后交由 CPU 去执行。 CPU 执 
行程序时，要从存储器中取指令。存储器访问指令，比如 lw 或 sw ， 还要从存储器取 
数据或把数据写人存储器。因为存储器的速度比 CPU 慢很多，在 CPU 内部都设计有 
高速缓冲存储器（以下简称 Cache)o 

另外，所有编译好的程序都使用它自己的虚拟地址空间。一般来讲，虚拟地 
址空间都是从0开始。如果访问存储器时直接使用这个虚拟地址，则会造成不同 
的程序之间相互冲突。因此，当一个程序被调入到存储器时，还需要根据当前存储 
器的使用情况，为它安排空闲的存储器。这就需要有一个机制，把程序执行时的虚 
拟地址转换成实际的存储器地址。为了加速地址转换， CPU 内部通常设计有 TLB 
(Translation Lookaside Buffer ) ,它有与 Cache 非常类似的结构。 

本章主要讨论各种存储器的原理、 Cache 的结构与设计、虚拟存储器管理、用于 
快速地址转换的 TLB 以及 MIPS CPU 的基于 TLB 的地址转换机制。 

12.1 存储器 


我们知道，存储器是构成计算机的三剑客之一（另外的两剑客是 CPU 和 I/O 接 
口)。存储器种类繁多，依用途或内部结构不同，我们把它大致分成以下 4 类。 

1) 静态存储器 (Static Random Access Memory, SRAM), 主要用于 Cache 和 TLB 
设计，有钱人用它来实现计算机 主存； 

2) 动态存储器 （Dynamic Random Access Memory ， DRAM), 用于实现主存； 

3) 只读存储器 （ Read-Only Memory ， ROM), 用于存放初始启动程序（间 化)； 

4) 相联存储器 (Content Addressable Memory , CAM), 用于 Cache 和 TLB 设计。 

除了 ROM, 其他三种存储器都具有所谓的“挥发性’’，意即电源关掉后，原来 
保存在存储器中的内容便消失得无影无踪。因此，刚开机时， RAM 中的内容是不可 
使用的。那么，开机时 CPU 执行的第一条指令从何而来？答案是从 ROM 中来。本 
节简要地描述这 4 种存储器的原理和结构。 


12.1.1 静态存储器 (SRAM) 

静态存储器是相对于动态存储器而言的，或者说动态存储器是相对于静态存储 
器而言的。简单地讲，动态存储器需要“输氧”，也就是所谓的刷新 （ Refresh )。 否则 
的话，动态存储器中的内容会渐渐消失。而静态存储器很“健康”，不需要刷新。大 
家应该还记得 D 锁存器吧。静态存储器的一位就类似于一个 D 触发器。 
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虽然没有谁这么干，但还是让我们来看看如何用 D 触发器来构成一个小容 M 的 
静态存储器【 26 】。图 12.1 示出的是用12个 D 触发器设计的一个存储器模块。它一共有 
4个字，每个字3位。地址是 A [1:0]、 数据输入端是 DI [2:0]、 输出端是 DO [2:0 ]、WE 
是写使能。数据输入端接到 D 触发器的 D 端。左侧是地址译码，用于选择4个字中 
的一个。译码的输出和 WE 相与 （ AND ), 接到 D 触发器的允许端 C 。 D 触发器的输 
出 Q 和地址译码的输出相与再送到一个或门，形成数据输出信号。 


A[1:0] DI[2] DI[1] DI[0] 



DO[2] DO[ 1 ] DO[0] 


图 12.1 由 D 触发器构成的 4 X 3 位静态存储器（供演示用) 



图 12.2 —种6晶体管静态存储器 SRAM 的存储单元 

实际的静态存储器单元不是使用 D 触发器，而是使用类似于图 12.2 所示的电 
路。左侧是简化的电路图。两个非门构成一个双稳态的存储 单元； BL 和是数据 
线； WL 是一个字的选择信号，相当于 12.1 的地址译码输出。它控制 n 3 和 n 4 两个 
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晶体管，当它为高电平时，可对存储单元进行读写。右侧是详细的 CMOS 电路 ， pi 
和 nl 组成一个 非门； p 2 和 n 2 组成另一个非门。 

静态存储器的特点是与 CPU 的接口简单且速度快，但价格高，耗电量也大。因 
此一般用于 Cache 和 TLB 设计，但有一些高性能计算机也拿它当主存用。 

12.1.2 动态存储器 （ DRAM) 

与静态存储器的存储单元不同，动态存储器使用一个小容量的电容来保存信 
息，用电容中有无电荷（电平的高低)来表示1和0。图 12.3 是一个 1 MX 1位 DRAM 
芯片的内部结构示意图。 “XI” 是指数据线外部接口的位数。 1 M 个单元（位）组成 
IK X 1 K 的二维阵列。10位行地址译码器的输出用于选择阵列的一行 （1 K 位)。列 
地址译码器/多路选择器从一行的 1 K 位中选择一位。访问 1 M 个单元需要20位地 
址，但一般的 DRAM 芯片的地址线只有所需地址位数的一半。因此地址要分两次 
送给 DRAM 芯片，低电平有效的 RAS (Row Address Strobe ) 和 CAS (Column Address 

Strobe ) 分别用于选通行地址和列地址。 



do 


图 12.3 动态存储器 1 M x 1位 DRAM 

图中的一位数据线有单独的输入和输出管脚 （ DI 和 DO )， 也有共用一个管脚的 
(双向数据线)。数据位数也有多于一位的。另外，电容会漏电，所以 DRAM 需要定 
期刷新。刷新不是 一 位 一 位地进行，而是一彳了 一 ■行 地进行 D 

12.1.3 只读存储器 （ ROM) 

只读存储器也是可以随机访问的。与 RAM 不同， ROM 存储器的内容即使断了 
电也不会丢失。计算机系统中都有 ROM ， 用于存放操作系统的初始引导程序等。 
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ROM 有很多种。常见的有 MROM (Mask ROM)、PROM (Programmable ROM ) 、 
EPROM (Erasable PROM) 、 EEPROM (Electrically EPROM ) 和 Flash Memory 等 。 Flash 

Memory 与一般的存储器不同，它不支持传统意义上的随机访问。与其说 Hash 
Memory 是一种存储器，倒不如说是一种类似于硬盘的外部存储设备。 


12.1.4 相联存储器 （ CAM ) 


还有一种比较特殊的存储器 （Content Addressable Memory ， CAM ), 按英文字面 

可译成“可按内容寻址的存储器”，但读起来不怎么顺。本书称其为相联存储器。不 
管名称如何，关键是要看它的内涵。 ‘ 

传统存储器的读操 作是： 给个存储器地址，相应的存储器数据就出来了。对相 
联存储器可以这样简单地 理解： 它与传统存储器刚好相反，给个存储器数据，该数 
据在存储器中的位置（地址）就出来了。当然，如果那个数据不在存储器中，也不可 
能有地址出来。即，相联存储器査找存储器中所有的内容，看看是否有一个或多个 
与输入数据匹配的单元。如果有，在哪儿？ 

图 12.4 是一个4字3位的相联#储器 CAM 的结构示意图。12个 C 是12位存 
储器数据，3位输入数据的每一位都有正反两个信号， SL , 和$、0 ^ i ^ 2,接到 
所有字的相应的 C 位（列)。 SL 是 Search Line 的缩写。当某个字的3位（行）均与输 
人数据相同时，其 ML 信号为高电平。 ML 是 Match Line 的缩写。如果有多个字匹 
配，那么就有多条 ML 线输出高电平。右边是一个优先级编码器，从中选出一个地 
址 Matched _ Address 。 信号 Match _ Found 表示是否有匹配。在有些电路的设计中可能 
并不需要这个编码器，而是直接输出全部的 ML 。 



字 3 
字 2 

字 1 
字 0 


SL 2 


SL 2 SL , 


SL , SLo 


SL 








ml 3 




p 



► Matched-Address 


i 


Match Jound 



位 2 


位 i 


位 0 


图 12.4 相联存储器 CAM 的结构图 


那么存储单元 C 到底是一种怎样的结构，这么厉害，能实现匹配呢？这样的电 
路有许多种实现方法[ 25 】，图 12.5 给出的是一种非常朴素的电路。图中的存储单元部 
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分与 SRAM (见图 12.2) 相同，它的输出用 D 和 D 表示。不匹配时， D 与 SL 相同 ， D 
与页：也相同，两组晶体管 （ nl 和 n 2 —组、 n 3 和 n 4 —组）总有一组导通，导致 ML 
变低。反之，每组中都有一个晶体管截止，维持 ML 的高电平（匹配)。 ML 连接到多 
位这样的存储单元，只要有一位不匹配， ML 就被拉低。与图 12.4 相比，图 12.5 中 
多岀了 WL , 它和 SRAM 中的 WL 相同，用于 SL 写入时的行选择。 



SL 





图 12.5 -种相联存储器 CAM 的存储单元 


相联存储器可以用于各种冇按位匹配要求的场合，比如虚拟存储器管理、数 
据压缩、 Cache , TCP / IP 中的 IP 地址匹配等。图 12.6 示出的是相联存储器的应用 
之一： Cache 的简单结构图。图中的左侧用存储器地址去匹配 CAM 相联存储器。 
如果有匹配发现，其匹配地址被用来访问快速的 RAM , 从中得到指令或数据。 
图 12.6 是使用独立的 CAM 和 RAM 芯片设计 Cache 的例子。如果把它们集成在一个 
芯片中，则可以省去编码器和译码器，把 CAM 匹配线直接和 RAM 行选择线相连。 
但这时不允许有多个匹配同时出现。 



地址标志 指令或数据 


阁 12.6 使用相联存储器的 Cache 示意图 


12.1.5 存储层次 

图 12.7 示出了目前计算机系统典型的存储层次结构。从左至右，存储容量增 
大，但速度变慢。使用这样一个存储层次的目的是为程序提供一个容量大、速度快 
且价格低的存储系统。 
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快 


速度 


• 慢 


阁 12.7 存储层次 


寄存器堆是速度最快的存储部件，它在 CPU 芯片内部。 CPU 使用指令中的寄 
存器号直接访问它。一般的 CPU 有 16 〜 256 个寄存器。 Cache 存放主存中的部分数 
据。第一级 Cache 和第二级 Cache 通常也在 CPU 片内 （ On-Chip Cache), 而且第一级 
有分开的指令 Cache 和数据 Cache 。 第三级 Cache 在片外，使用 SRAM。Cache 对用 
户程序来讲是透明的，即用户看不到它，没有办法用程序对它进行控制或访问。在 
有些计算机的体系结构中， Cache 对操作系统也是透 明的； 而有些体系结构则提供了 
特权指令对 Cache 直接进行维护。主存 (Main Memory) 是用户能访问的存储器，存放 
指令和数据。硬盘的主要功能是#放文件，但它的另一功能也很重要，即与主存一 
起为用户提供一个相对大的虚拟存储器空间。如果我们把主存称为第一级存储器， 
则硬盘是第二级存储器。 


12.2 高速缓存 ( Cache ) 


Cache 的原意是一个隐蔽的场所，用来保存食物等贵重的东西。在计算机系统 
中，借用 Cache 来表示一个小容量高速度的缓冲区，用于存放 CPU 经常使用的原本 
在主存中的指令或数据以加快 CPU 访问存储器的速度。 


前面我们已经讲过， Cache 对用户程序来讲是透明的，即用户看不到它。为什 
么呢？因为 Cache 是一个隐蔽的场所，让用户看到它就谈不上隐蔽了。实际的意义 
是： 对 Cache 的管理是我们硬件的内政，不容你们软件干涉。 


最初， Cache 中什么也没有。所以 CPU 必须访问主存。从主存拿到的指令或数 

据由硬件写人 Cache 中，以便 CPU 以后再访问相同的地址时，不用访问主存，直接 



假设 Cache 的内容写人后就再也没被 CPU 使用过，那么这个 Cache _ 没有任何 
正面的意义。 | 使用 Cache 是基于指令和数据访问的局部性 (Locality) 特性。 | 局部性分 




空间部件适仿， 


PU 访问某个存储单元时，该存储单元附近的存储单元最有可能被随后 访问； 时间 
部性是指 CPU 访问某个存储单元后，该存储单元最有可能被冉次访问。 


如果 CPU 想要的指令或数据在 Cache 中找到了，我们说 Cache 命中 （ Hit )。 如果 
| 没命中 （ Miss)， CPU 必须要访问主存。 I 假设 Cache 的访问时间 tc = Ins 、 主存的访问 
时间 t m = 50ns、Cache 的命中率 h = 98%, 则平均的存储器访问时间是 
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t = hxtc + (l — h ) x (tc + t m ) 

=t c + (1 — h) X tm 

=1 + 0.02 x 50 = 1 + 1 = 2 ns 

Cache 的容量比主存小得多。那么主存的指令或数据放在 Cache 的什么地方？再 
者，当 Cache 已满，“新来的”要替换掉谁？如果往存储器写入数据时 Cache 没命 
中怎么办？以下各小节回答这些问题。 

12.2.1 Cache 的映像机制 

Cache 映像机制定义数据在 Cache 中存放的规则。主要的映像机制有 三种： 

1) 直接映像 （Direct Mapping ); 

2) 全相联映像 (Fully Associative Mapping )； 

3) 组相联映像 (Set Associative Mapping ) 0 

參 

i . 直接映像 

I 頁接映像使用地址的低位作为 Cache 存储器的地址直接访问 Cache I 那么地址的 

高位怎么办？不能简单地忽略，否则会把不是属于 你的东西拿来了。因此我们要在 
pachc 中保存自己的高位地址作为一个标志 C ^ i )| o 考虑到存储器访问的空间局部性 
的特点以及减少标志所占的存储单元的数量， Cache 通常是以块 ( Block ) 或行 ( Line ) 
为单位与主存之间交换数据。这样，每个 Cache 块除了有数据，还要配备一个标志 
Tag (地址的高位)。如果把低位地址看作“名”，那么标志就是“姓”，姓和名合起来 
就是姓名，能确定 Cache 中的东西到底是谁的。 

18 11 1 2 



阁 12.8 直接映像 Cache 


图 12.8 给出的是 16 KJB (16 x 2 10 字节）直接映像 Cache 的硬件结构。图中的地 
址是32位，其中的 Block 是 Cache 块号，或称块地址， W 是块内的字地址。一个字 
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有4个字节， B 是字节地址。由于 Cache 有 16 KB = 2 14 字节，需要地址的低14位 
作为 Cache 的地址。从图中可以看出，每块为8 = 2 3 个字节，或两个字。因此访问 
Cache Tag 部分的地址为14 一 3 =丨1位（块地址)。而访问 Cache Data 部分的地址为 
12位（字地址)，输出的数据是32位(一个字)。另外图中的 V ( Valid ) 是相应块的有效 
位。当地址中的标志与 Cache 中的标志相等、并且有效位也为1,我们说 Cache 命中 
( Hit = 1)。注意，图中数据部分的 Cache 存储器可以直接使用地址中的 W 位，而不 
用在外面加一个二选一多路器来选择一块（两个字）中的一个字。 

2. 全相联映像 

图 12.9 示出的是 16 KB 全相联映像 Cache 的硬件结构。直接映像 Cache 的特点 
是存储器的数据在 Cache 中存放的地点是唯一的，一点迁徙的“自由”也没有。与 
此相对照，全相联映像 Cache 有最高的“自由度”，愿意住哪儿就住哪儿。多么和 
谐的社会啊。但直接映像 Cache 使用普通的静态存储器 SRAM 就行，而全相联映像 
Cache 需要使用相联存储器 CAM 。 看来要自由是要付出代价的。 


29 


2 




12 


RAM 


Matched^\dciress 



Match-Found 


爹 


Dout 

Hit 


m 12.9 全相联映像 Cache 

图中地址标志的比较电路使用 CAM 。 有关 CAM 的原理及内部单元的 CMOS 
电路我们已经在本章开始处介绍了。若标志匹配， CAM 输出11位的匹配地址 
Matched-Address ,它与地址中的一位 W —起，构成地址访问 Cache 数据部分的存储 
器 RAM 。 如前所述， CAM 和 RAM P ] ■以集成在一起，省去地址编码器和地址译码 
器，用 CAM 匹配线直接选中 RAM 的一行(块)，再用 W 选出一个字。 

3. 组相联映像 

在“自由度”这个问题上，我们还是可以商 M 的。直接映像和全相联映像是两 
个极端， I 而组相联映像在二者之间搞“中 H 77 ] 。 尽管同样是中庸，但也有偏向谁的 
问题，其衡量指标是“路” ( Way ) 的多少。二路组相联是把直接映像的 Cache 分成两 
路，每路的规模是总数的一半。存储器数据存入 Cache 时，用地址的低位对两路同 
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时访问，看看有没有一路空闲。如果有，先住进去再说。 | 读 Cache 时也是一样，用 | 
I 地址的低位对两路同时访问，看看有没有一 I 

二路组相联是最偏向直接映像的“中庸”，也就是随便应付一下。如果你觉得怠 
慢了全相联映像，你可以用“四路”、“八路”、“十六路”等。当路数增至与 Cache 
总块数相同，就变成全相联映像了。你看，由 M 变到质变了不是。 

图 12.1 0 示出的是 16 KB 二路组相- 映像 Cache 的硬件结构。 Tag 部分一半一半 
分成两路， 用块地址同时访问这两路 | ， 因此块地址只要10位就够了（比直接映像 
少了一位，但标志多了一位)。同时被选中的两路合在一起称为一组 （ Set )。 组内可以 
任意存放， S 卩，选择一组时用直接映像，组内用全相联。访问 Cache 的数据部分仍 
用12位地址，其中10位来自于块地址 Block ， 另两位分别来自于 W 和 Hitl 。 



图 12.10 二路组相联映像 Cache 

除了以上讲的三种映像，还有一些不太常用的其他映像方式，比如“扇区映像” 
(Sector Mapping )。 映像方式不同，直接导致 Cache 的性能不同。我们对 Cache 的性 
能进行评价时，不但要看它们的命中率，也要看价格及访问速度。 

12.2.2 Cache 块的替换算法 

以全相联 Cache 为例。当一块数据被存入 Cache 时，首先査找有没有空闲的 
Cache 块。如果有，就把数据存人该块。如果全相联 Cache 所有的块均被存人了数 
据，那么再有新的块又要存入 Cache 时怎么办呢？答案是只好把原来已在 Cache 中 
的块替换掉了。替换谁呢？这倒是一个伤脑筋的问题。同样，对于组相联 Cache 来 
讲，由于组内是全相联，也有替换掉哪一路的问题。直接映像的 Cache 有没有这个 
问题呢？没有，因为是直接映像，没有其他的选择。所以直接映像的 Cache 不用伤 
这个脑筋。 

为了提高 Cache 的命中率，我们希望把“将来”不再被使用或很久很久以后才 
被使用的 Cache 块替换掉，而把那些近期将要被使用的块保留。但是，希望归希 
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望，“将来”的事情谁也说不准。 

使用 Cache 的目的是缩短存储器的平均访问时间，因此 Cache 块的替换算法一 
般由硬件实现。以下我们介绍两种相对简单的替换 策略： LRU 算法和随机算法。 

1. LRU 替换算法 

LRU (Least Recently Used) 是使用最为广泛的-种替换算法。 LRU 的意思是“最 
近最少被使用”，即 LRU 替换算法不是“展望未来”，而是“回顾过去”。就像新招 
一个队员同时让一个“板凳队员”卷铺盖走人，实现 LRU 算法要求对每个“队员”做 
记录，看谁在板凳上坐的时间最长。 

以组相联映像 Cache 为例。假设一组有八路，则每路要有一个三位计数器，通 
过各路的计数值来区分哪一路最近老没被教练派上场。规则 如下： 

1) 替换掉计数值为 0 的块 （如 果有多于一个块的计数值为 0, 随便替换哪一个)。 
设置该块的计数器为最大值7,其他块的计数器都减1。但若计数值是0就不 
冉减了。我们称这样的计数器为饱和计数器 (Saturated Counter) 0 

2) 命中时，假设命中块的计数值为 k , 则把计数值大于 k 的所有其他块的计数器 
减1，并把命中块的计数器设置为最大值7。 

3) 计算机刚启动时，把所有的 Cache 块的计数器和有效位全部清零。这意味着该 
队连一个队员也还没有呢。 

如果一组有四路，则需为每路安排一个两位计数器。如果一组只有两路，按推 
理需为每路安排一个一位计数器。但是，如果其中的一路是最近最少被使用的话， 
不言而喻，另一路一定是最近最多被使用的，因此只用一个一位计数器就足够了。 

以上讨论的是一组中的情况。如果 Cache 总的组数为 S ， 则总的计数器的数量是 
一组中计数器的个数乘以 S 。 这是一笔不小的开销。 

2. 随机替换算法 

LRU 算法是通过总结历史经验来预测将来的发展方向。这种算法需要“投资”， 
即为每一块配备一个计数器。 

如果你想省钱，随机 （ Random) 算法倒是一个相当不错的选择。随机算法完全不 
管 Cache 块过去、现在及将来的使用情况，简单地根据一个随机数，选择一块替换 
掉。注意，整个 Cache 只需一个随机数产生器，所以比 LRU 省钱。随机数可由硬件 
产生，例如设置一个计数器，由系统时钟进行计数。是不是被替换掉就看你的运气 
了。虽然有些 Cache 设计者讨厌这种方法，但模拟结果证明，它的性能还是相当不 
错的，至少把钱先省了。 

还有一种先进先出 FIFO (First-In First-Out) 算法： 不管你在场上的表现如何，谁 
先人队谁先走人。与 LRU 算法一样，也需投资。虽然还有其他一些替换算法，但实 
现起来过于复杂。在大多数 Cache 设计中，二路和四路组相联映像 Cache 用 LRU 替 
换算法，其他的用随机替换算法（直接映像 Cache 用不着替换算法)。 
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12.2.3 Cache 写策略 

截至目前，我们都是在讨论读存储器时如何对 Cache 进行管理。那么写存储器 
时又是怎样的一种情况呢？看以下的一些 Cache 写策略。 

1. 写透和写回 

写存储器并且 Cache 命中时，有以下两种策略可供 选择： 写透 （Write Through) 
和写回 （Write Back 或 Copy Back )。 写透策略是指在写 Cache 的同时也写主存，也可 
译成写穿、写通、通写或统写(统统写)，总之是 Cache 和主存“通吃”。它的优点是 
能够保持主存与 Cache 的一 致性； 缺点是增加数据传输量，并且写存储器要花费较 
长的时间（可以把数据先放在快速的写缓冲区内，然后再由硬件慢慢写)。 

写回策略是只写 Cache ， 不写主存。只有当数据块要被替换掉时，才将它写回主 
存。如果被替换掉的 Cache 块从来没被写过，即它的内容与主存相应块的内容是一 
样的，就不必写回主存了。因此，为了能够区分 Cache 块是否被写过，我们需要为 
每一块增加 一 位“修改位” (Updated Bit 或 Dirty Bit )。 

当数据块首次被调入 Cache 时，清除修改位。 一 M 往数据块写数据时，把修改 
位置1。在数据块被替换掉时，若它的修改位为0,则简单地把新的数据写人 该块; 
如果修改位是1，则先要把数据块写回主存，然后再调入新的数据块。这种策略的优 
点是缩短了写操作所用的时间，减少了存储器访 问量； 缺点是主存中可能会存有过 
时的数据。当其他 CPU 或 DMA 控制器从存储器中读数据时，有可能读不到最新的 
数据，即出现所谓的 Cache 一致性 (Cache Coherence ) 问题。 

2. 写前读入和写不读入 

写存储器但 Cache 不命中时，也有两种写策略：写前读入 (Write Allocate ) 和写 
不读入 (No Write Allocate 或 Write No Allocate )。 写前读人策略是先把数据块从主存 
读人 Cache , 然后再写。为什么不直接写 Cache 而是先读再写呢？因为 Cache 块是一 
“大块”，要写入的只是一“小块”，地址标志是为整个“大块”而准备的，因此必须 
把整块内容读进来。写不读入策略是绕开 Cache , 只写主存。 一 般地，写前读人与写 
回策略一起使用，写不读入和写透策略又是一对儿。为什么呢？ 

12.2.4 数据 Cache 电路设计及 Verilog HDL 代码 

图 12.11 是 Cache 与 CPU 及存储器之间的一般连接示意图。所有的信号分成两 
组： 与 CPU 连接的信号名称以 p _ 开始； 与存储器连接的信号名称以 m _ 开始。信 
号 a 是地址线。 dout 和 din 是数据线。 strobe 是选通线， 为丨时 表示要进行读或写操 
作。 rw 为0时表示读，为1写。 ready 为1时表示已经准备好了： m _ ready 表示存储 
器准备 好了； p _ ready 是通知 CPU : 外面的世界准备好了。 

图 12.12 是一个具体的 Cache 电路的 实现： 它使用直接映像方式及写透策略。 
图中的三个 RAM 模块分别存放有效位 （Valid RAM )、 高位地址标志 （Tag RAM ) 和 
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图 12.11 Cache 与 CPU 及存储器之间的接口信号 
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图 12.12 直接映像 Cache 


Cache 数据 (Data RAM ), 其中 Data RAM 的数据输入端和数据输出端各有一个二选一 
的多 路器： 写入 Cache 的数据有两个来源， 一 个是存储器、一个是 CPU 。 如果 Cache 
没命中，从存储器取来的数据要写入 Cache 中。如果遇上存数据指令，则要把 CPU 
的数据写人 Cache 。 送往 CPU 的数据 p . din 的来源也有两个，一个是 Cache 命中时的 
Data RAM 数据，一个是没命中时从存储器取来的数据。两个多路器的选择信号由图 
中的控制电路产生。具体的实现见以下的 Verilog HDL 代码。 


module d—cache # (parameter A—WIDTH 




32, parameter C — INDEX 


6 ) 


(p—a, p—dout, p_din / p—strobe, p_rw f p—ready, elk, clrn, 
m — a, m—dout, m 一 din, strobe, m_rw f m_ready); 


input 



■WIDTH-1: 0] 



a; 


input [31:0] 
output [31:0] 
input 
input 


p 一 dout 
p 一 din; 



strobe 


p—rw; 


// 0: read, 1: write 
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output 

input 

output [A jIDTH-1 : 0 ] 
input [31:0] 
output [31:0] 
output 


p—ready; 
elk, clrn; 
m—a; 
m 一 dout; 
m—din; 
m 一 strobe; 


output 


m 一 rw; 


input 

localparam T—WIDTH 
reg 

reg [T 一 WIDTH-1:0] 
reg [31:0] 
wire [CJNDEX-1:0] 
wire [T 一 WIDTH-1:0] 


m 一 ready; 

=A—WIDTH 一 C 一 INDEX 一 2; // 1 block = 
d-valid [0:(1<<C_INDEX)-1]; 
d_tags [0:(1<<C_INDEX)-1]; 
d_data [0:(1<<C 一 INDEX)-1 】 ； 
index = p—a[C—INDEX+1:2]; 
tag = p—a[A—WIDTH - 1:C—INDEX+2]; 


// write to cache 

always @ (posedge elk or negedge clrn) 

if (clrn == 0) begin 

integer i; 

for (i = 0; i < (1<<C 一 INDEX); i = i + 1) 
d 一 valid[i 】 <=l ， b0; 
end else if (c_write) 

d 一 valid[index] <= l f bl; 
always @ (posedge elk) 

if (c—write} begin 

d—tags[index] <= tag; 
d 一 data[index] <= c—din; 

end 


// read from cache 

wire valid = d 一 valid[index]; 
wire [T—WIDTH-l:0] tagout = d 一 tags[index]; 
wire [31:0] c 一 dout = d 一 data[index]; 


// cache control 


wire cache 一 hit 

wire cache 一 miss 

assign m_din 
assign m 一 a 
assign m 一 rw 
assign m—strobe 
assign p 一 ready 

wire c—write 

wire sel__in 


=valid & (tagout == tag); // hit 
= - cache—hit; 

=p_dout; 

=P_a; 

=p—strobe & p — rw; // write through 
=p—strobe & (p 一 rw | cache 一 miss); 

="p_rw & cache 一 hit | 

(cache 一 miss | p — rw) & m—ready; 

=p—rw I cache 一 miss & m 一 ready; 

=P—rw; 


1 word 
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wire sel—out = cache 一 hit ; 
wire [31:0] c—din = sel_in ? p 一 dout : m_dout; 
assign p 一 din == sel_out? c 一 dout : m 一 dout; 

endmodule 


存放有效位的 RAM 开始时要清零，其他两个不用。由于使用写透策略，每次 
执行存数据指令 （sw 或 swcl ) 时都要写存储器，不管 Cache 命中与否。因此 p_ready 
信号中包含了一项 P-rw & m.ready (存储器写并且存储器准备好)。如果 p_ready 为 
0, CPU 要等待并维持存储器访问信号。另外，由于该例中一个 Cache 块只有一个 
字，不需要写前读人，因此写不命中时也写 Cache 。 

图 12.13 和图 12.14 是以上代码的仿真结果。图 12.13 示出的是读操作没命中以 
及命中时的部分波形。图 12.14 示出的是写操作以及读命中时的部分波形。 
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图 12.13 数据 Cache 仿真波形图（读) 


12.3 虚拟存储器管理及 TLB 设计 

我们在本章开始处讲过，编译好的程序使用虚拟地址空间。当操作系统把程序 
调来执行时，为它分配存储器。在程序执行时，我们需要把程序中的虚拟地址转换 
成主存的实际地址。还有一些其他的名称，比如逻辑地址、处理机地址、程序地址 
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d cache.vwf 
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图 12.14 数据 Cache 仿真波形图（写 ) 


等，大致上它们的含义与虚拟地址相同。同样，存储器地址、物理地址、主存地址 
等又和实际地址有相同的含义。 

12.3.1 虚拟存储器与主存的关系 

我们知道，多个进程可以通过进程切换 (Context Switching ) 的方式轮流运行，多 
线程 CPU 能同时运行多个进程。每个进程都使用从0开始的多至 4 GB 的虚拟存储 
空间。图 12.15 示出的是两个进程的例子。由虚拟地址到实际地址的转换通过页表 
(Page Table ) 实现。页表的输入是进程号和虚拟页号，输出是主存的实际页号。图中 
主存的每页大小是 4 KB , 需要转换的是页号，页内偏移 M 不需转换。注意图中所示 
的是转换关系，实际上页表的输入只有一组信号，输出也只有一组信号。 

把虚拟地址转换成实际地址这项工作由存储器管理部件 (Memory Management 
Unit ， MMU ) 完成。管理方法有分段管理 ( Segmentation ) 和分页管理 ( Paging ) 两种。 
图 12.15 示出的是分页管理。以下我们描述这两种管理方法。 

12.3.2 分段管理 

分段管理是把存储器分成若干段 (Segment), 为一个程序指定一个或几个“段寄 
存器” （Segment Registers )。 这些寄存器指定当前段所在的主存的起始地址。每次访 
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进程 A 的虚拟地址空间 


页表 


主存 


4G — 1 



进程号/虚拟地址 
进程号/虚拟地址 


mm 


进程号/虚拟地址 


进程 B 的虚拟地址空间 


4G — 1 



进程弓 •/ 虚拟地址 
进程号/虚拟地址 




实际地址 
实际地址 


进程号/虚拟地址 




实际地址 


实际地址 


N — 1 




硬盘 





m i 2. i 5 把虚拟地址转换成主存地址 


问存储器时，主存的地址由段寄存器的内容与程序中的虚拟地址相加得到。比如 x 86 
就是这么做的。 

除了主存的起始地址，段寄存器中可能还存有该段的大小以及对该段的访问控 
制信息。段的大小用于判断虚拟地址是否出界，而访问控制信息指出该段是否已在 
主存以及能否对其进行读写或执行等访问权限的信息。由此吋见，分段管理中每段 
的大小是可以变化的。 

12.3.3 分页管理 

与分段管理不同，分页管理把存储器机械地分成若干页 （ Page )， 使用单一的虚 
拟地址，不需要段寄存器之类的东西。另外，虽然一页的大小是可以改变的，但 
是，一旦决定了，每页的大小就固定了，都是一样的。图 12.16 是分页管理的地址转 
换示意图，一页 4 KB ， 页内地址有12位。 


虚拟地址 12 11 0 主存 



图 12.16 分页管理的地址转换 
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假设图 12.16 中的虚拟地址是 32 位。那么我们把高 20 位虚拟地址称做虚拟页 
号。使用虚拟页号作为地址访问页表 （Page Table)， 从中得到实际地址的页号。实际 
页号与页内地址合起来就是实际地址。假设页表中的每一页表项 (Page Table Entry) 
占用4个字节，贝 lj 这个页表占用 2 2G X 4 = 4MB。 问： 页表在哪里？ 答： 主存。页表 
需要占用 4MB 的连续的主存空间，起始地址由页表基地址（实际地址）指定。 

使用 4MB 的连续的主存空间显然违背分页管理的精神。我们把20位的虚拟页 
号分成两 部分： 页目录地址 （10 位）和页表地址 （10 位)，见图12.17。我们首先使用页 
目录地址访问页目录，从中得到页表的起始地址，然后再使用页表地址访问页表， 
得到实际页号，最后再使用实际地址访问存储器。这样，一个页目录和一个页表都 
只占 4KB。 注意， 4KB 的页目录只有一个，但 4KB 的页表却有 1K 个。 


成拟地址 22 21 12 11 0 主存 



图 12.17 两级分页管理的地址转换 

你看，为了访问一次数据存储器，先要访问一次页目录存储器，再要访问一次 
页表存储器，这时得到的才是实际地址。即，总共要访问三次主存。本来主存就比 
CPU 的速度慢，乘以3,就更慢了。有没有办法加快这个地址转换呢？有。 

12.3.4 快速地址转换 TLB 及其电路设计 

TLB (Translation Lookaside Buffer) 是一种与 Cache 极其相似的电路，只是它的目 
的是加快地址转换的速度。即， Cache RAM 中存放的不是数据而是存储器地址的实 
际页号部分。图 12.18 示出的是一种全相联映像的 TLB 的结构示意图。从 RAM 出来 
的实际页号与页内地址合起来是访问主存的实际地址。其他映像的 TLB 结构请参考 
相应的 Cache 结构。 

图 12.19 示出的是8个 TLB 项的全相联 TLB 模块图。图中 CAM 是相联存储 
器，有8项，用虚拟页号来瓜配 CAM 中的 vpn。 若冇 一 项匹配， vpn_found 输出1， 
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虚拟页号 页内地址 虚拟地址 



MatchJound _ ) - ► TLBJiit 


图 12.18 全相联映像的 TLB 示意图 
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图 12.19 8 个 TLB 项的全相联 TLB 模块图 

vpn 」 ndex 输出该项的地址，并作为访问 RAM 的地址，从 RAM 中得到实际页号。 
对 CAM 和 RAM 的写操作有两种方式： tlbwi 指令使用指定的地址 index ； tlbwr 指令 
使用随机的地址 random 。 pte _ in 是往 RAM 中写入的实际地址页号。 hit 表示 TLB 命 
中。 

图 12.20 是具体的电路实现。 CAM 用 Altera 的 altcam 器件， RAM 用 lpmj * am_dq 

器件。随机数使用一个3位的计数器 3 

以下是图 12.20 中的 ram 8 x 24 模块的 Verilog HDL 代码。 

module ram8x24 (address, data, inclock, outclock,we,q); 

input [2:0] address; 
input [23:0] data; 

input inclock; 
input outclock; 
input we; 
output [23:0] q; 

lpm 一 ram 一 dq ram 一 comp (.outclock (outclock ) 9 
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t Ib8entry 一 sch.bdf 


0回® 


pte^out(23] : AND2 


阁 12.20 8 个 TLB 项的全相联 TLB 电路图 


defparam 


endmodule 


.address (address) , 


• inclock (inclock), 

• data (data ), 

.we (we), 






•q ( q )); 

ram_comp.1pm 一 width 
ram_comp.lpm—widthad 
ram—comp•1pm 一 indata 
ram—comp•lpm_outdata 
ram—comp•1pm 一 type 
ram—comp•1pm—address 一 control 


24, 

3, 

"registered", 
"registered", 






"registered"; 


以下是图 12.20 屮的 cam 8 x 20 模块的 Verilog HDL 代码。 

module cam8x20 (inclock,pattern,wraddress,wren,maddress,mfound); 

input inclock,wren; 
input [19:0] pattern; 
input [2:0] wraddress; 
output [2:0 】 maddress; 
output mfound; 
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altcam cam (.wren (wren ), 

.inclock (inclock ) 9 
.pattern (pattern), 

.wraddress (wraddress ), 
.maddress (maddress ), 
.mfound (mfound)); 

defparam cam. lpm 一 type = ’’altcam", 

cam.match— mode = "single", 

cam,numwords = 8 / 

cam.output—aclr 
canu output 一 reg 
cam.pattern—aclr 
cam.pattern 一 reg 
cam.width 

cam.widthad = 3, 

cam.wraddress 一 aclr = "off", 
cam.wrcontrol—aclr = "off ”； 

endmodule 


="off", 

= w inclock 1 * f 

="off", 

= w inclock f, , 


图 12.21 是使用 tlbwi 写入 TLB 时的仿真波形，图 12.22 是命中时的仿真波形及 
没命中时使用 tlbwr 写人 TLB 时的仿真波形。 


E tlb8entry vwf 


Master Time Bar 



□回® 


Pointer: 214.85 n$ I nterval: 


Stall: 


End: 


80.0 


160,0 


240.0 


mSKSESSSSmi^mBmiaK^SmSS, 



FF0002 XFF0003 


taasniimiiiiiarflaiiBiaagaEHna 


vpnjndex 


w^SSSSSSSSSSSSSSSSS 

JTr/JOn : “_U 腿 ' J 


12.21 全相联 TLB 电路仿真波形图 (tlbwi 写入 TLB ) 
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图 12.22 全相联 TLB 电路仿真波形图 ( tlbwr 写人 TLB ) 


12.3.5 TLB 与 Cache 的并行访问 


假设我们使用 k 路组相联映像的 Cache 且 Cache 的标志是实际地址的高位部 
分。在分页管理的情况下，假设页的大小为 2 m 字节。当 Cache 的容量不大于 2 m X k 
字节时，访问 Cache 和访问 TLB 可以同时进行，见图12.23。 


虚拟地址 


实际地址 



Cache Ji it Data 


m 12.23 TLB 与 Cache 可以并行访问的条件 


同时访问的意 思是： 使用虚拟页号查找 TLB 得到实际页号，使用不需转换的页 
内地址访问 Cache 。 假设二者的访问时间相同，则实际页号和 Cache 标志同时输出， 
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然后比较它们以确定 Cache 是否命中。例如 ， m = 12 、 k = 4时，我们可以使用多 
至 16 KB 的 Cache 。 如果 Cache 的容量超出这个界限，访问 Cache 时不得不使用 TLB 
输出的实际页号的低若干位了，从而延长了 Cache 的访问时间。 

以上是使用实际地址访问 Cache 的情况。那么访问 Cache 直接使用虚拟地址（地 
址标志也是虚拟地址的高位部分）是否可行呢？如果可行，它又会有怎样的结构呢？ 
会岀现什么问题吗？请读者思考并给出设计方案。 

12.4 MIPS 基于 TLB 的虚拟地址转换机制 

MIPS 使用 TLB 把虚拟地址转换成实际地址。特点是， MIPS 提供了用于 TLB 
维护的指令和寄存器。 

12.4.1 MIPS 的虚拟地址空间 

MIPS 体系结构把 CPU 的运行状态分成 三种： 用户方式 (User Mode )、 管理方式 
(Supervisor Mode) 和核心方式 （Kernel Mode )。 为了讨论方便，我们在这里忽略管理 
方式。图 12.24 是 MIPS 的虚拟地址空间与实际地址空间的对应关系。图中把 4GB 的 
虚拟地址空间分成了 4 段 （ Segments): kuseg (2GB), ksegO (512MB)、ksegl (512MB) 
和 kseg2(lGB )。 核心方式可以使用所有的段，而用户方式只能使用 kuseg 。 虽然称做 
段，但 MIPS 的存储器管理用分页管理方式。 


虚拟存储器 I/O 



图 12.24 MIPS 虚拟地址空间映像 

图中的“ Mapped ” 表示虚拟地址要经过 TLB 转换 (kseg2 和 kuseg) 、“ Unmapped ” 
不允许使用 TLB (ksegl 和 ksegO) 、“ Uncached” 表示不能往 Cache 里放 （ ksegl)。ksegO 
(0x8000 0000 〜 0x9FFFFFFF) 虽然不经过 TLB ， 但也不是直接使用，而是直接映像 
到主存的 0x0000 0000 〜 OxlFFF FFFF 。 这相当于某些其他 CPU 的“ Real Mode” 。如 
果你有机会阅读为 MIPS 准备的操作系统的源程序，你会发现很多代码的起始地址是 
0x8xxx xxxO ( 虚拟地址)，把最高位的1改成 0 就是实际的主存地址。 
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注意， ksegl 也直接映像到实际地址空间的 （ OxOOOOOOOO 〜 OxlFFFFFFF )。 这岂 
不是要引发战争吗？不会，这段地址用于访问1/0。这也是为什么它不被允许使用 
Cache 的原因。你往存储器的某个单元写入一个数据，然后再 读它： 数据还是那个数 
据。但是， I / O 地址空间不具有这个 特性： 你往一个 I / O 地址写的可能是“控制”信 
息，而从相同的地址读来的可能是“状态”信息。所以禁止 ksegl 使用 Cache。MIPS 
读写 I / O 也是使用诸如 lw 和 sw 之类的存储器访问指令。这就是所谓的“存储器映像 
的 I / O ”。这一点与 x 86 不同， x 86 有专门的 I / O 指令。 

你看，当机器刚启动时， TLB 没被初始化也没 关系： 操作系统既有从最低地址 
开始的 512 MB 的主存可以使用，又有 512 MB 的 I / O 地址可用。作为一个系统软件工 
程师，没什么好抱怨的了吧。接下来的工作是初始化页表以及 TLB ， 好让 kuseg 和 
kseg 2 也能有存储器可用。 

12.4.2 MIPS TLB 的构成 

MIPS 所有的进程都有相同的虚拟地址空间。为了能够区分开它们， MIPS 为每 
个进程指定一个不同的“地址空间标示符” ASID (Address Space Identifier )。 ASID 有 
8 位，可以被看作是“扩展的虚拟地址”的高位部分。这样，不同的进程就有不同的 
“扩展的虚拟地址”空间了。在用 TLB 做地址转换时， ASID 也参加比较。但是，在 
某些情况下，操作系统又希望所有的进程“共享”相同的虚拟地址空间。为此 ， TLB 
中增加了一位“全局”标志 G ( Global )。 如果 G 被设置为1,则在转换时忽略 ASID 。 

使用 TLB 的目的是为了加快从虚拟地址到实际地址的转换 。 MIPS TLB 使用全 
相联映像结构，它的每一项由“虚”和“实”两部分组成，见图12.25。 

虚的部分 实的部分 




阁 12.25 一个 TLB 项的内容 


虚的部分包含有 AS 1 D 、 全局标志 G 、 虚拟页号 （Virtual Page Number ) VPN 2( 实 
际的意义是 VPN /2, 因为每一项对应两个实际的存储 器页： 偶页和奇页）和用来指 
定一页大小的页屏蔽域 Mask 。 实的部分包含有偶页和奇页两组实际地址页号 PFN 
(Physical Page Frame Number ) 及相关的控制和状态信息 （ C 、 D 和 V )。偶页组编号为 
0、奇页组编号为1 。V ( Valid ) 表示该实际地址页号是否 有效 ； D ( Dirty ) 指出该页存 
储器的内容是否被修改过，比如执行 sw 指令 ； C (Cache Coherency ) 是 Cache —致性 
信息（见表12.1)。 

CP 0 寄存器 PageMask、Entry Hi 、 EntryLoO 和 Entry Lo 1 中定义的每个域与 TLB 

项中的每个域具有相同名称。这些寄存器被用来访问 TLB 项。 TLB 偶页项来自于 
EntryLoO 寄存器，奇页项来自于 EntryLol 寄存器。有一处稍微不同： TLB 项中的 G 
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表 12.1 Cache 页一致性 M 性 


C 

Cache 页 一 致性属性 

0〜1 

没有定义、具体实现时可由厂家自定义 

2 

该页存储器的内容不准往 Cache 里面放 

3 

该页存储器的内容可以往 Cache 里面放(一般的存储器） 

4〜7 

没有定义、具体实现时可由厂家自定义 

是 EntryLoO 和 EntryLo 1 中的两个 G 的逻辑“与’’。 


在表 12.1 中没有定义的 C 的值可以由 MIPS CPU 的生产厂家自己来定义，比如 
IDT 79 RC 32355 CPU [ 4 】 中对 C 域有如表 12.2 所示的定义。 IDT 79 RC 32355 手册中没有 

讲采用写回策略时 (C = 3) 对写不命中如何处理，但作者猜测是把相应的数据块取到 
Cache 中 （Write Allocate )， 以便下次访问到它时命中，反正它采用的是一次性写回的 
策略，不用每次执行 sw 指令时都要写入存储器 ( Cache 命中时只写 Cache ) 0 

表 12.2 IDT79RC32355 Cache 页一致性 M 性 


C 

Cache 页 一 致性属性 

0 

可以往 Cache 里面放、写透、写不读入 (Write Through, No Write Allocate) 

1 

可以往 Cache 里面放、 ’Lj 透 、写前读入 (Write Through, Write Allocate) 

2 

不准往 Cache 里面放 

3 

可以往 Cache 里面放、写回 （ Write/Copy Back) 

4 〜 7 

保留 


下面讲 TLB 项中的 Mask 域到底是干什么用的。 Mask 对应于 CP 0 第5号寄存 
器 PageMask (见图 12.26) 中的 Mask 域。它有16位，占用 PageMask 寄存器的 [28:13] 
位。如果这些位全部为0,则存储器页的大小为 4 KB 。 艮卩，实际地址的低12位 
([11:0]) 与虚拟地址的低12位相同。虚拟页号（虚拟地址中的 [31:12] 位)需要转换。 
但由于一个 TLB 项有奇偶两组实际页号，由虚拟地址的 [12] 位来选择，所以参与转 
换的虚拟地址位就变成了 [31:13 ]。 MIPS CPU 可以通过设置适当的 Mask 值来改变存 
储器页的大小。当 Mask 位为1时，相应位置的虚拟地址就不需转换了，即一页存储 
器变大了。不像第6章中的中断屏蔽 IM ， 这里的 Mask 是真正意义上的“屏蔽”。 

31 29 28_13 12_0 

1 0 1 Mask 1 0 


m 12.26 PageMask 寄存器 (CP0 寄存器 5) 的格式 


表 12.3 列出了 Mask 的取值和与其相对应的存储器页的大小。最大的页就是 
256 MB 了。把 4 GB 定为存储器页的大小不能说是愚蠢的，它意味着不需要做地址转 
换，比如在大部分嵌入式的应用中就不转换地址，而且存储器也不需要那么大。表 
中最右列的 S 用于选择实际地址页号0还是页号1，它只有一位，括号中的数字是它 
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表 12.3 PageMask 寄存器中的 Mask 取值 


页的 位 


大小 

28 

27 

26 

25 

24 

23 

22 

21 

20 

19 

18 

17 

16 

15 

14 

13 


4KB 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

[12] 

16KB 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

1 

1 

[14] 

64KB 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

1 

1 

1 

1 

[16] 

256KB 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

1 

1 

1 

1 

1 

1 

[18] 

1MB 

0 

0 

0 

0 

0 

0 

0 

0 

1 

1 

1 

1 

1 

1 

1 

1 

00] 

4MB 

0 

0 

0 

0 

0 

0 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

P2] 

16MB 

0 

0 

0 

0 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

04] 

64MB 

0 

0 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

06] 

256MB 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

[28] 


在虚拟地址中所处的位号。在具体的 MIPS CPU 的设计中，虽然要做地址转换，但 
你也可以不使用 PageMask 寄存器。这时存储器页的大小就是固定的 4 KB 了。 

MIPS CPO 寄存器 EntryLoO , EntryLol 和 EntryHi 的格式如图 12.27 和图 12.28 
所示。 Entry LoO 和 EntryLol 的格式完全相同，主要内容是存储器地址的实际页 
号； EntryHi 的主要内容是虚拟页号。 


31 30 29 


6 


3 2 



图 12.27 EntryLoO 和 EntryLo 1 寄存器 (CP0 寄存器 2 和 3 ) 的格式 


31 


13 12 


0 


VPN2 


0 ASID 


图 12.28 EntryHi 寄存器 (CP0 寄存器 10 ) 的格式 


两个图中所有的域的意义已经在对 TLB 项的描述中简单地提过了，这里再多讲 
几句 。 PFN (Physical Page Frame Number ) 是存储器实际地址的页号，有 24 位。假设 
每页为 4 KB = 2 12 B , PFN 和页内偏移世两部分地址拼凑起来就是存储器的实际地 
址，有24 + 12 = 36位，能访问2 36 = 64 GB 的存储器。你的机器有那么多的内存 
吗？没有吧。怎么办？简单！把地址的髙位扔了。实际上，操作系统能侦察出你的 
机器的家底有多厚。没那么多存储器的话，操作系统也不会把进程的虚拟地址转换 
到你力所不能及的界外。 

TLB 项中的 PFN 从哪里来？是从那寄存器 EntryLoO 或 EntryLol 中来。寄存器 
Entry LoO 或 Entry Lo 1中的 PFN 又从哪里来？对面的 IU 写过来。写什么呢？ IU 从哪 
里能得到它呢？答案是从我们已经讲过的用于分页存储器管理的动态页表中得到。 

图 12.27 中有一位 V ( Valid )， 为1时表示可以使用该项做地址 转换； 为0时产生 
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TLBL 或 TLBS 异常（见第6章表 6.1 对 Cause 寄存器中 ExcCode 的定义)。 

还有就是图 12.27 中的 D 又是负的什么责呢？ D : Dirty , 有不干不净的意思 。一 
页存储器不干净是什么意思呢？存储器本来是干净的 （D = 0)，当 CPU 执行诸如 sw 
类的存数据指令第一次往该页写数据时，存储器就不干净了。这是一件再普通不过 
的事情了，但还是要向 CPU 报警： 产生 Mod 异常（也见表6.1)。如果该页存储器已 
经不干净了 （ D = l ), 就可以随便写了，再也不会报警了。 

操作系统可以使用它来实现一些存储器分页管理的算法，比如页替换算法等。 
当不干净的页被替换掉时，要把它保存到硬盘的 Swap 区域（文件)。这一点与 Cache 
的管理非常 类似： 存储器管理使用全相联映像方式，并且使用写回策略。其他 CPU 
的 TLB 项中经常会有一位 Reference 或 Used 位，用于实现类似于 LRU 的存储器页替 
换算法。但 MIPS 没有 Reference 位，似乎只能使用随机替换策略了。 

12.4.3 MIPS 虚拟地址转换 

当对一个虚拟地址进行转换时，把虚拟页号 VPN 2 以及当前进程的 ASID 同时 
与 TLB 中的所有项进行比较（全相联)。如果以下条件全部满足时， TLB 命中，从而 
得到实际地址页号。 

1) 由虚拟地址中的 S 位选中的有效位 V0 或 VI 的值是 1 ( 有效)， S 位在虚拟地址 
中的位置由 PageMask 寄存器中的 Mask (也在 TLB 中）决定，见表 12.3; 

2) 当前进程的 ASID 与 TLB 项中的 ASID 匹配，或者 TLB 项中的 G 为1; 

3) 去掉被屏蔽的位，虚拟页号 VPN2 与 TLB 项中的 VPN2 相同。屏蔽哪些位由 
PageMask 寄存器中的 Mask 域指定。 MIPS 利用 PageMask 寄存器可以改变存储 
器页的大小。如果 CPU 中没有设计 PageMask 寄存器，则认为 Mask 为 0, 虚 
拟页号 VPN2 的任何一位都不被屏蔽。这时存储器页的大小为 4KB 。 

见图 12.29, 如果 TLB 命中，未经转换的页内地址与从 TLB 得到的实际地址页 
号合在一起，形成访问存储器的实际地址。为了清楚地表示出虚拟地址中的 S 位， 
屏蔽位 Mask 画在了虚拟地址的下面，但要注意它是在 TLB 中。 

12.4.4 MIPS TLB 维护指令 

MIPS CPU 不能对 TLB 项直接访问。见图12.30, CPU 要想读写 TLB 项，必须 
使用 CP 0 中的若干寄存器和一些特殊的指令 ( tlbp 、 tlbr 、 tlbwi 和 tlbwr )。 

1 .与 TLB 维护指令有关的另外三个寄存器 

我们已经介绍过了几个与 TLB 有关的 CP 0 寄存器，比如 PageMask 、 EntryLoO 、 
EntryLo 1 和 EntryHi 寄存器。以下再介绍另外三个与 TLB 维护指令有关的寄存器， 
它们是 Index 寄存器 ( CP 0 寄存器0)、 Random 寄存器 ( CP 0 寄存器 1) 和 Wired 寄存器 
( CP 0 寄存器6)。图 12.31 示出的是这三个寄存器的格式。 
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阁 12.29 基于 TLB 的虚拟地址转换（与所有的 TLB 项同时比较) 



图1 2.30 CPU 访问 TLB 必须经过 CP0 寄存器 
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阁 12.31 Index、Random 和 Wired 寄存器的格式 


TLB 中有 N = 2 n tTLB 项，每项都有一个 n 位的编号，相当于地址 。 Index 











12.4 MIPS 基于 TLB 的虚拟地址转换机制 
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域就是被用来“指出”或“指定”这个地址的。比如 CPU 想修改某一 TLB 项中的 
内容， CPU 先要执行 mtcO 指令把那一项的地址写人 Index 寄存器，然后执行 tlbwi 
指令。这是“指定”的意思。另外， CPU 有时也想调杳一下 TLB 中有没有一项与 
EntryHi 寄存器的内容匹配。如果有，硬件把那一项的地址写入 Index 域并把 P 位清 
零。这是“指出”的意思。 CPU 可以使用 mfcO 指令把 Index 寄存器的内容读过来。 

Random 寄存器是一个只能由 CPU 读但不能写的寄存器。我们知道 TLB 项的 
内容可能要被新的内容替换掉。替换掉哪一项呢？ MIPS CPU 支持随机替换策略， 
即由硬件产生一个随机数，把这个随机数存放在 Random 寄存器。这个随机数的功 
效与 Index 相同，也是指定 TLB 项的地址。 CPU 可以使用一条 tlbwr 指令来修改由 
Random 寄存器指定的 TLB 项。 

如果某些 TLB 项属于“重点保护单位”，不能被“随机”地替换掉，怎么办呢？ 
答案是使用 Wired 寄存器。图 12.32 给出 Wired 寄存器的意义。假设 Wired 寄存器的 
内容是 i , 则 TLB 的0 〜 i 一 1项是重点保护单位。 



ir 

Random: 允许用 tlbwr 指令修改 

也允许用 tlbwi 指令修改 



Wired: 不允许用 tlbwr 指令修改 

只能用 tlbwi 指令修改 


阁 12.32 Wired 的意义 


MIPS 用于 TLB 维护的指令有4条。使用 Index 寄存器修改 TLB 项的指令是 
tlbwi ；使用 Random 寄存器修改 TLB 项的指令是 tlbwr 。 还有两条指令是 tlbp 和 
tlbr 。 它们的指令格式见图12.33。 
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图 12.33 MIPS 4 条用于 TLB 管理的指令 
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2. tlbp (Probe TLB for Matching Entry) 指令 


tlbp 指令检查是否有一 TLB 项与 EntryHi 寄存器的内容匹配（相同)。如果有，则 
把该 TLB 项的号码(地址)存人 Index 寄存器，最高位 P (Probe Failure ) 清零； 如果没 
有，把 Index 寄存器的最高位 P 置1。检查是否匹配时不能忘掉的事情有以下两个。 
一个是要考虑屏蔽位 ( PageMask 寄存器中的 Mask )， 即只比较 VPN 2 中的那些没被屏 
蔽 的位； 另一个是要考虑全局标志 G 。 如果 G = 0, 还要比较二者的 ASID 。 


3. tlbr (Read Indexed TLB Entry) 指令 


tlbr 指令读 TLB , 把由 Index 寄存器中的 Index 域指定的 TLB 项的内容送到 
EntryHi 、 EntryLoO , EntryLo 1 和 PageMask 寄存器。注意 TLB 项中的一位 G 要写入 
EntryLoO 和 EntryLo 1两个寄存器中的 G 位（相同了)，而当初写 TLB 时 EntryLoO 和 
EntryLo 1两个寄存器中的 G 位可能不同，逻辑“与”后写人 TLB 项中的 G 位。 


4. tlbwi (Write Indexed TLB Entry) 指令 

tlbwi 指令写 TLB ， 把 EntryHi 、 EntryLoO、EntryLo 1 和 PageMask 寄存器的内容 
送到由 Index 寄存器中的 Index 域指定的 TLB 项的相应域。注意 TLB 项中的一位 G 
由 EntryLoO 和 EntryLo 1寄存器中的两位 G 逻辑“与”得到。 


5. tlbwr (Write Random TLB Entry) 指令 


tlbwr 指令也是写 TLB ， 完成与 tlbwi 类似的任务，不同点是它不使用 Index 寄存 
器，而是使用随机数寄存器 Random 来指定 TLB 项。 

流水线 CPU —定要有两个 TLB : 指令 TLB 和数据 TLB ， 分别用于取指令和访 
问数据时的地址转换。而 MIPS 只提供了一套 TLB 读写指令，并且没有提供其他的 
手段能用软件分别读写这两个 TLB ， 导致 TLB 的设计变得有些麻烦。搞不懂设计者 
当初是怎么想的。 

12.5 习题 

1. 简要解释什么是 Cache 、 MMU 和 TLB 以及需要它们的原因。 

2. 调査扇区映像 (Sector Mapping) 的 Cache 结构。 

3. 设计并仿真一个两路组相联的 Cache 电路。 注意要有与 CPU 和存储器的接口信 
号，其他策略自己决定。 

4. 在写透策略中，不管 Cache 是否命中，每次写数据操作都要写存储器。本章给 
出的例子是 CPU 等待写存储器操作完成。试设计一个带有写缓冲区的 Cache , 
使得 CPU 不必等待。 

5. 试调查虚地址 Cache 的原理与设计。 



12.5 习题 
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6. 试用 Verilog HDL 设计一个四路组相联的 TLB 电路并对电路进行仿真。 

7. 试设计 一 个 CPU ， 使其能执行以下 MIPS 指令： mfcO 、 mtcO 、 tlbp 、 tlbr、tlbwi 

和 tlbwr 。 

8. 用踪迹驱动模拟或执行驱动模拟的方法定 M 评价各种结构的 Cache ， 包括映像 
进制、 Cache 的容摄、块的大小、替换策略、写策略等。 



第 13 章带有 Cache 及 TLB 和 FPU 的 

CPU 设计 


本章描述一个完整的流水线 CPU 的设计，包括整数部件、浮点部件、分开的指 
令 Cache 和数据 Cache 以及分开的指令 TLB 和数据 TLB 。 浮点部件能完成加减乘除 
和开方运算， Cache 完全由硬件控制，而 TLB 的维护需要软件介入。 

TLB 不命中时产生异常信号，因此本章给出的 CPU 也包含了异常处理。 TLB 维 
护指令只实现 tlbwi 和 tlbwr 两条指令。另外，我们在 Index 寄存器的第30位增设了 
一位 D (Data TLB )。 当 D =1 时， tlbwi 和 tlbwr 写数据 TLB ; 为0时写指令 TLB 。 
本章给出 CPU 的 Verilog HDL 设计代码以及仿真波形。 


13.1 Cache 和 TLB 的总体结构 


我们已经在第12章介绍了 Cache 和 TLB 的工作原理及它们的 Verilog HDL 代 
码。本节的重点是如何使用它们，与整数部件和浮点部件以及主存有机地结合在一 
起，为 CPU 提供有效的存储器层次的管理 3 图 13.1 是简化的 TLB 与 Cache 之间的 
连接概念图。 



阁 13.1 TLB 勺 Cache 的连接 


来自存储器的数据 
指令 

ICache 命中 
1TLB 命中 
DTLB 命中 
DCache 命中 

数据 

来自存储器的数据 


TLB 的作用是把 CPU 产生的虚拟地址快速地转换成存储器的实际地址。我们使 
用两个 TLB : 指令 TLB (简称 ITLB ) 和数据 TLB (简称 DTLB )， 分别用于指令地址和 
数据地址的转换。为了设计简单起见，我们使用固定大小的 4 KB 页面， TLB 的映像 
方式为全相联映像。 

Cache 的作用是为 CPU 快速地提供指令和数据。我们也使用两个 Cache : 指令 







13.2 与 Cache 有关的电路设计 
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Cache 和数据 Cache 。 Cache 的映像方式为最简单的直接映像，标志位使用经过 TLB 
转换过的实际地址。 

13.2 与 Cache 有关的电路设计 

13.2.1 指令 Cache 的 Verilog HDL 代码 


我们已经在第12章介绍了数据 Cache 的设计方法并给出了它的 Verilog HDL 代 
码。指令 Cache 比数据 Cache 简单，因为 CPU 并不往指令 Cache 写任何东西。以下 
是指令 Cache 的 Verilog HDL 代码。请与数据 Cache 的代码进行比较。 


module i 一 cache # (parameter A 一 WIDTH = 32, parameter C—INDEX = 
(P— a ， p — din ， p 一 strobe,p 一 ready,cache 一 miss,clk f clrn, 
m—a, m—dout,m — strobe,m—ready); 
input [A 一 WIDTH-1:0] p_a; 


output [31:0] 
input 
output 
output 


p 一 din; 
p_strobe; 
p_ready; 
cache_miss; 


input 


elk, clrn; 


output [A 一 WIDTH-1:0] 
input [31:0] 
output 
input 

localparam T—WIDTH = 
reg 

reg [T—WIDTH-1:0] 
reg [31:0] 
wire [C 一 INDEX-1:0] 
wire [T—WIDTH-1:0 】 


m—a; 
m_dout; 
m — strobe; 
m—ready; 

A_WIDTH 一 C_INDEX 一 2; // 1 block = 

d 一 valid [0: 《 1<<C 一 INDEX 卜 1]; 

d 一 tags [0:(1<<C 一 INDEX)-1]; 

d—data [0:(1<<C—INDEX)-1]; 

index = p_a[C_INDEX+1:2]; 

tag = p—a[A—WIDTH — 1:C—INDEX+2 】； 


// write to cache 


6 ) 


1 word 


always @ (posedge elk or negedge clrn) 

if (clrn == 0) begin 

integer i; 

for (i = 0; i < (1 << C—INDEX" i = i + 1) 
d — valid[i] <= 1’bO; 
end else if (c 一 write) 

d 一 valid[index] <= l f bl; 
always @ (posedge elk) 

if (c 一 write) begin 

d 一 tags[index] <= tag; 
d 一 data[index] <= c 一 din; 

end 


// read from cache 

wire valid = d—valid[index]; 
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wire [T—WIDTH-1 : 0] tagout = d 一 tags[index] ; 
wire [31:0] c—dout = d 一 data[index]; 


// cache control 


wire 


cache hit 


assign cache 一 miss 
assign m 一 a 
assign m 一 strobe 
assign p—ready 


wire 

wire 


c 一 write 
sel out 


wire [31:0] c—din 
assign p—din 

endmodule 


=valid & (tagout == tag); // hit 
=~cache 一 hit; 

=P—a; 

=p 一 strobe & cache—miss ; // read on miss 
=cache—hit | cache_miss & m 一 ready; 

=cache—miss & m 一 ready; 

=cache_hit; 

=m—dout; 

=sel out? c dout : m dout; 


13.2.2 数据 Cache 和指令 Cache 与外部存储器的接口 


因为有分开的指令 Cache 和数据 Cache , CPU 从指令 Cache 取指令的同时，也 
可以访问数据 Cache 。 但与存储器的接口只有一套，见图13.2。 


pc[31:0] 
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i_rcady 


m.addr[31:0 
mb[31:0 
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•fetch 
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sel 」 




d.cache 


—ppifpgHRfpp 

-» p ， dout[31:0] m.din[31:0J } 


p.din[31:01 
p-Strobe 


m_dout[31:0] 
ra^trobe 


m.d-a 




m.st 


n W pw- h IU^>UUU1 ； — 




selJ 


mem.af31:0] 

mem_access 

mem.write 


memjeady 


meni-St-datapi:0] 

mem.data[31:0] 


图 13.2 数据 Cache 、 指令 Cache 和存储器接口 

图中左边的信号连接到 CPU 中的 IU 部分，右边的信号连接到主存。我们规定 
指令 Cache 的优先级比数据 Cache 高，即当两个 Cache 都不命中时，首先从存储器中 
取出指令。阁中的 mux 和 cache^sel ( demux ) 电路的代码如下。 

// mux, i 一 cache has higher priority than d 一 cache 
sel 一 i = i 一 cache 一 miss; 
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mem_a = 
mem 一 access = 
mem 一 write = 
// demux 


sel 一 i ? 
sel 一 i ? 
sel i ? 


m 一 i 一 a 
m—fetch 
l，bO 


m—d—a ; 
m Id st; 
m 一 st; 


m 一 i 一 ready = mem—ready & sel 一 i; 
m—d 一 ready = mem_ready & ~sel—i; 


13.2.3 Cache 不命中时流水线暂停的电路 

Cache 不命中时，要访问存储器。在访问存储器期间，我们采用最简单的处理方 
法: 暂停流水线。以下是 Cache 没有暂停流水线的 条件： 

no 一 cache 一 stall = ~(~i 一 ready | midst & 〜 d—ready) ; 

式中的 midst 是流水线 MEM 级的信号，它表示当前在 MEM 级的指令是存储器访问 
指令。原有的流水线暂停信号 wpcir 还是控制 PC 和 IR ， 而 no _ cache . stall 控制包括 
PC 和 IR 在内的所有的流水线寄存器。 


13.3 与 TLB 有关的电路设计 

我们已经在第 12 章介绍了 TLB 模块本身的设计方法并给出了电路图。本节介 
绍如何使用它来实现对指令虚拟地址和数据虚拟地址的转换。与 Cache 的处理方法 
不同，当 ITLB 或 DTLB 不命中时，产生相应的异常信.号， CPU 执行异常处理程序 
来填充 TLB 0 ITLB 和 DTLB 具冇相同的结构，都使用 tlb_8_entry 模块。我们首先给 
出它的 Verilog HDL 代码，它等同于第 12 章的电路图（见图 12.20 )。 


module tlb — 8 一 entry (pte—in,tlbwi,tlbwr,index,vpn,memolk f elk,clrn 

random,pte 一 out,hit,vpn 一 index,vpn_found); 


input 

[23:0] 

pte_in; 

input 


tlbwi, tlbwr; 

input 

[2:0] 

index; 

input 

[19:0] 

vpn; 

input 


memclk, elk, clrn; 



output [2:0] random; 

output [23:0] pte 一 out; // v d c c ppn 


output 


hit; 


output 

output 

wire 

wire 

rand3 

mux2x3 

mux2x3 

ram8x24 


[2:0] vpn 一 index; 

vpn 一 found; 

[2:0] w—idx, ram 一 idx; 

tlbw = tlbwi I tlbwr; 
rdm (elk,clrn,random); 
w—address (index,random,tlbwr,w—idx); 
ram 一 address (vpn 一 index,w—idx,tlbw f ram—idx); 
pte (ram 一 idx,pte_in,memclk,memclk,tlbw,pte 一 out>; 
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cam8x20 valid 一 tag (memclk,vpn,w—idx,tlbw,vpn 一 index,vpn 一 found) ; 
assign hit = pte__out [23] & vpn—found; 
endmodule 


13.3.1 指令 TLB (ITLB ) 和数据 TLB (DTLB) 

图 13.3 给出了两个 TLB 及周边电路的模块图。右边的两个输出信号 ipte _ out 和 
dpte . out 分别是指令和数据实际存储器地址的页号。寄存器 Index 主要存放 TLB 项的 
号码，另外第30位指出是写 ITLB 还是写 DTLB (作者定义的 )。 EntryLo (只有一个) 
主要存放存储器实际地址的页号，它的内容是从存储器页表读来的，当 TLB 不命中 

时被写入 TLBo 


ipattem[19:0] 


dffe32 


db[31:0] 

windex 

elk 


tlb.control 


tlbwr 

tlbwi 
pc .unmapped 

ma_unmapped 

itlb_exc 

dtlb.exe 


w w 腳 

tlbwi 

pc .unmapped 
ma-unmapped 


dtlb-hit 




dpattem[19:0] 


dffe32 


db[31:0] 
wentlo 
elk 


~H w ^^^AitrvLo 


tlb.8.entry 



二 H 卜 ^JTLB 


ipte.out[19:0] 


tlb-8-entry 




dpte.out[19:0] 


图 13.3 ITLB 和 DTLB 

输入信号 ipattern 和 dpattem 各自都有两个来源：通常情况下来自干 CPU 虚拟地 
址的页号，用于匹配 TLB 来做地址 转换； TLB 不命中时来自于 ENTRY_HI 寄存器， 
它的内容要被写人 TLB 。 ENTRY_HI 的内容实际上也是存储器虚拟地址的页号。两 
个信号的产生方法如下，其中 v _ pc 是指令的虚拟存储器地址、 malu 是数据的虚拟存 
储器地址。 

ipattern = (itlbwi | itlbwr) ? enthi[19:0] : v—pc[31:12]; 
dpattern = (dtlbwi | dtlbwr) ? enthi[19:0] : malu[31:12]; 

13.3.2 TLB 不命中时异常信号的产生 


并不是所有的存储器访问都要用 TLB 做地址转换。见图 12.24, 当虚拟地址的 
最高两位为10时，只要把最高位的1改为0,就得到实际地址。因此，当虚拟地址 
的最高两位为10时，要封锁 TLB 不命中时产生的异常信号。这部分的代码如下。 
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// mapped or unmapped 

pc-unmapped = v_pc [31] & 'v_pc [30] ; // lOx; v__pc: va of inst 
ma—unmapped = malu[31] & "malu[30]; // lOx; malu : va of data 
// real addresses 


pc = pc—unmapped ? 

m—addr = ma_unmapped ? 

// exceptions 
itlb_exc = it lb 一 hit & 
dtlb exc = ^dtlb hit & 


{1’ bO, v__pc [30:0]} : 

{ ipte_out[19:0],v_pc[11:0]}; 

{l f b0,malu[30:0]} : 

{dpte—out[19:0] f malu[11:0]}; 

一 pc—unmapped; 

一 ma_unmapped & midst; 


其中， itlb _ exc 是 ITLB 不命中的异常信号， dtlb _ exc 是 DTLB 不命中的异常信号。我 
们规定 itlb - exc 的优先级比 dtlb _ exc 高，即当二者同时为1时，首先处理 dtlb _ exc 。 


13.3.3 与 TLB 不命中异常有关的寄存器 


对 TLB 不命中异常的处理要用到一些特殊的寄存器，见图13.4。注意有些寄存 
器的定义与 MIPS 不同。这些寄存器的意义如下所述。 
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图 13.4 与 TLB 不命中异常有关的寄存器 

1) CPU 通过执行 tlbwi 指令，可以修改某个 TLB 项。寄存器 Index 的最低3位用 
来指定这个 TLB 项（在我们的设计中， TLB 总共有8项)。第30位 D 用来指定 
是写 ITLB 还是写 DTLB 。 
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2) 寄存器 EntryLo 只有一个，其中的 PFN 是存储器实际地址的 页号； V 是有效 
位； D 和 C 没有使用。 

3) 寄存器 Context 的内容是一个页表项在存储器中的实际地址。当 TLB 不命中 
时， CPU 使用这个地址从页表中读出一个页表项，将其写入 TLB 。 Context 中 
的高位部分 PTEBase 由 CPU 执行 mtcO 指令 写入； 低位部分 BadVPN 由硬件自 
动写人，它是引起 TLB 不命中异常的虚拟地址的页号。 

4) 寄存器 EntryHi 中的 VPN 是虚拟地址的页号，由 CPU 设置。 CPU 执行 tlbwi 或 
tlbwr 指令时，把它写入 TLB 。 ProcessID 没有使用。 

5) 寄存器 Status 中的 ExcEna 是8位异常允许位，其中第4位和第5位分别对应 
itlb _ exc 和 dtlb _ exc 。 为0时，屏蔽相应的异常。当 CPU 响应异常时，把 Status 

寄存器的内容左移8位以屏蔽进一步的异常(作者的做法)。 

6) 寄存器 Cause 中的 ExcCode 指出当前发生的是哪种异常： itlb _ exc 和 dtlb _ exc 的 
ExcCode 分别定义为4和5。 

7) 寄存器 EPC 用来保存异常返回地址，由硬件自动写人。 

以下描述 ITLB 和 DTLB 不命中产生异常时硬件需要完成的动作。图 13.5 所示 
的是在通常情况下出现 itlb . exe 时的流水线时序和保存返回地址的电路。 


itlb.exe 


EPC 


V-PC 


IF 


ID 


EXE 


MEM WB 


Cause 


ITLB^EXC 


IF 


ID 


EXE 


MEM WB 


Status 


Status << 8 




MEM WB 


PC 


BASE 


EXE 


MEM WB 


Cancel 


BASE 


EXE 


MEM WB 


EXE 


MEM WB 


wepc 


EPC 


NPC 


V«PC 


EPC 


BASE 



图 13.5 — 般情况下的 ITLB_EXC 

ITLB 不命中异常 itlb . exe 出现在取指令的 IF 级。此时的 ID 级要对该异常进行 
处理。处理动作 包括： （1) 把引起异常的指令的虚拟地址保存到 EPC ; (2) 把4写人 
Cause 寄存器的 ExcCode 域； （3) Status 寄存器左移8 位； （4) 把异常处理程序的人口 
地址写 AV _ PC ; (5) 产生废弃指令的信号 cancel 。 以上五个动作同时完成。 

因为已经把异常处理程序的人口地址写入了 V _ PC , 所以 CPU 将执行程序以实 
现对 ITLB 的修改。具体的做法稍后讨论。我们还是接着讲 ITLB 和 DTLB 异常。 
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图 13.6 所示的是在取延迟槽指令的情况下出现 itlb . exe 时的流水线时序和保存返 
回地址到 EPC 的电路。此时处在 ID 级的指令是转移指令，本来好好地要转移到目标 
地址，但由于出现了异常，必须要转移到异常处理程序的人口，因此保存到 EPC 的 
返回地址必须是转移指令的地址，即返回后重新执行转移指令。注意此时的、_?(：指 
向的是延迟槽指令。为了能够得到转移指令的地址，我们增加了一个流水线寄存器 
PCD 。 此时 PCD 中的内容就是转移指令的地址，把它保存到 EPC 中就行了。 
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ID 


IF 


EXE 


ID 
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MEM 
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ID 


Branch 
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MEM 


EXE 


ID 
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EPC 
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ID 
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_JU22_Jl^J 

1 I * - e .cancel 
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图 13.6 处在延迟槽的指令引起的 ITLB 上 XC 


DTLB 出现不命中异常就有一点点小麻烦了，它出现在流水线的 MEM 级，与 
ITLB 的不命中异常出现在 IF 级相比，整整晚了 3级。倒不是说保存返回地址有多麻 
烦，真正麻烦的是要废弃好多指令。 

图 13.7 所示的是在通常情况下岀现 dtlb _ exc 时的流水线时序和保存返回地址的 
电路。要废弃的指令总共有4条，它们分别处在 IF 、 ID 、 EXE 和 MEM 级。废弃信 
号在 ID 级产生，“自废”没问题，但除此之外还要忙前忙后。废弃下一条 IF 级的 
指令也没问题，因为已经在 ITLB 不命中时演练过了。废弃 EXE 级指令的办法是把 
EXE 级的控制信号在写入流水线寄存器之前封锁掉（指令在 EXE 级不改变 CPU 状 
态)。废弃 MEM 级的指令时，不仅要把写人流水线寄存器的控制信号封锁掉，也要 
把在 MEM 级使用的写存储器信号封锁掉。写人 EPC 的返回地址在 PCM 中，即引起 
DTLB 不命中异常的指令的地址。 

图 13.8 所示的是处在延迟槽的指令引起 dtlb . exe 时的流水线时序和保存返回地 
址的电路。与 ITLB 的情况类似，返回地址应该是转移指令的地址，它在 PCW 寄存 
器中。废弃指令的动作与上述一般情况下的废弃指令的动作相同。 

我们把以上4种情况加以总结，列在表 13.1 中。由此我们得到选择信号 sepc 的 
逻辑表达式如下。它选择不同的返回地址，选中的地址被写入 EPC 中。 
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图 13.7 




般情况下的 DTLB 上 XC 
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图 13.8 处在延迟槽的指令引起的 DTLB 上 XC 


表 13.1 为 EPC 选择返回地址 
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sepc[1] = ^itlb_exc & dtlb 一 exc; 

sepc[0] = itlb 一 exc & isbr | ~itlb 一 exc & dtlb 一 exc & wisbr; 

13.3.4 对 TLB 不命中异常的处理 

当 TLB 不命中异常发生且异常没被屏蔽时， CPU 跳转到固定的地址 ( BASE ) 去 
执行异常处理程序。在我们的设计中，这个地址是0 x 80000008。当 CPU 处理完异 
常，执行 eret 指令时， EPC 的内容要写人程序计数器中，以便实现从异常处理程序 
返回。因此我们在程序计数器的输人端加了一个多路器。多路器的输入及输入选择 
信号如下。其中 exc 是异常信号， Leret 为1表示当前指令是 eret 。 

// selpc[1:0] : 00: npc; 01: epc; 10: EXC 一 BASE 

selpc[1] = exc; 
selpc[0] = i 一 eret; 

当异常发生时，由 CPU 硬件将异常源写人 Cause 寄存器的 ExcCode 域。如前所 
述，我们把 itlb _ exc 和 dtlb _ exc 的 ExcCode 分别定义为4和5。当 CPU 进入异常处理 
程序后，可根据这个 ExcCode 转入相应的程序去处理。我们的做法是设置一个跳转 
表 （ j - table )， 把 ExcCode 作为地址偏移量从跳转表得到人口地址，然后跳转到这个地 
址。以下的汇编程序演示这个过程(程序中的 EXC_BASE = BASE )。 

EXC—BASE: # exception/interrupt entry 

0x80000008 : mfcO r26 f CO—CAUSE # read cpO Cause reg 

0x8000000c : andi r26, r26, Oxlc # get ExcCode, 3 bits here 

0x80000010 : lui r27, 0x8000 # j 一 table address high 

0x80000014 : or r27, r27, r26 # j 一 table address low 

0x80000018 : lw r27, j 一 table(r27) # get address from table 

0x8000001c : nop # 

0x80000020 : jr r27 # jump to that address 

0x80000024: nop # 

.data 

j 一 table: # address table for exception and interrupt 

0x80000040 : 0x80000030 # 0. int 一 entry, addr. for interrupt 

0x80000044 : 0x8000003c # 1. sys 一 entry, addr. for Syscall 

0x80000048 : 0x80000054 # 2. uni_entry, addr. for Unimpl. inst. 

0x8000004c: 0x80000068 # 3. ovf 一 entry, addr. for Overflow 

0x80000050 : 0x800000c0 # 4. itlb_entry, addr. for itlb miss 

0x80000054 : 0x80000140 # 5. dtlb_entry, addr. for dtlb miss 

0x80000058: 0x80000000 # 6. 

0x8000005c: 0x80000000 # 7. 


比如当前的异常是 dtlb _ exc , 则跳转到地址 0 x 80000140。 处理 dtlb _ exc 异常的主 
要工作是为没命中的虚拟地址在 DTLB 中准备一个 TLB 项，填上实际地址的页号。 
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该页号从页表中得到。修改 TLB 的指令有 两条： tlbwi 和 tlbwr 。 我们的演示程序使 
用了 tlbwi ， 该方法需要有一个 index 号码，用来指出写哪个 TLB 项。为此我们准备 
了一个计数器，每次写 TLB 时，都把它加1 ( 用软件实现先进先出替换策略)。由于 
我们的 TLB 只有8项，因此只使用计数器的低3位。这3位计数器值连同 DTLB 标 
志 D —起写人 Index 寄存器。寄存器 Context 中的内容实际上就是页表的存储器地 
址，我们可以从该地址得到实际地址的页号，把它写入 EntryLo 寄存器。我们还要设 
置 EntryHi 寄存器，它的内容应该是引起 DTLB 不命中的虚拟地址的页号。以上寄存 
器都设置好之后，执行 tlbwi 指令修改 TLB , 然后返回。这部分程序如下。 


0x80000140 

0x80000144 

0x80000148 

0x8000014c 

0x80000150 

0x80000154 

0x80000158 

0x8000015c 

0x80000160 

0x80000164 

0x80000168 

0x8000016c 

0x80000170 

0x80000174 

0x80000178 

0x8000017c 

0x80000180 


lui r27, 
lw r26, 
addi r26, 
andi r26, 
sw r26, 
lui r27, 
or r26 f 
mtcO r26 f 
mfcO r27, 
lw r26 f 
mtcO r26, 
sll r26, 
srl r26 f 
mtcO r26, 
tlbwi 
eret 
nop 


0x8000 
Oxlfc(r27) 
r26 f 1 
r26 f 7 
Oxlfc(r27) 
0x4000 
r27 f r26 
CO INDEX 


# 0x800001fc : counter 

# load dtlb index counter 

# index + 1 

# 3-bit index 

# store index 

# dtlb tag D (bit 30) 

# dtlb tag and index 

# move to cO index 


C0_CONTEXT 

0x0(r27) 
CO—ENTRY—LO 
r27, 10 
r26 f 12 
CO ENTRY HI 


# move from cO context 

# get pte 

# move to cO entry 一 lo 

# get bad vpn 

# for cO entry 一 hi 

# move to entry—hi 

# update dtlb 

# return from exception 

# 


13.4 带有 Cache 及 TLB 的 CPU 设计 

13.4.1 带有 Cache 及 TLB 的 CPU 总体结构 

图 13.9 给出的是带有 Cache 及 TLB 的 CPU 总体结构的示意阁。图中的 IU/FPU 
模块的基本结构与第10章描述的 CPU 相同，但增加了对 TLB 不命中异常的处理电 
路，包括跳转到异常处理程序及从中返回的电路、与 TLB 有关的寄存器和对相关指 
令的译码电路等。 

与第10章的 CPU 不同的是当 CPU 复位时，程序计数器的初始值为 0 x 80000000, 
而不是0 x 00000000。另外，为了测试 TLB 不命中异常，我们在测试程序中扩大了 
数据存储器的使用范围。为此，我们使用了不连续的4段物理存储器，它们分别 
存放： （1) 系统复位时的初始化程序和异常处理 程序； （2) 用于虚拟存储器管理的页 
表； （3) 用于测试 IU / FPU 的用户 程序； （4) 用户程序所使用的数据。以下给出 CPU 的 
Verilog HDL 源代码。 
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图 13.9 带有 Cache 及 TLB 的 CPU 模块阁 


13.4.2 带有 Cache 及 TLB 的 CPU 的 Verilog HDL 代码 


以下是最顶层模块 cpu.cache.tlb_memory , 包括 CPU 和存储器。 


module cpu—cache—tlb 一 memory ( 

clock,memclock,resetn,v 一 pc,pc,inst,ealu,malu,walu,wn,wd,ww, 

stall 一 lw,stall 一 fp,stall 一 lwcl,stall 一 swcl, stall, 

mem_a , mem—data,mem—st 一 data,mem 一 access,mem_write f mem—ready); 

input clock,memclock,resetn; 

output [31:0] v_pc f pc f inst,ealu,malu,walu; 

output [31:0] wd; 

output [4:0] wn; 

output ww, stall 」 w, stall—fp, stall 」 wcl, stall_swcl / stall; 
output [31:0] mem—a; 
output [31:0] mem 一 data; 
output [31:0] mem—st—data; 


output mem—access; 

output mem—write; 


output mem—ready; 

// cpu 


cpu_cache_tlb cpucachetlb ( 

clock,memclock,resetn,v_pc,pc,inst , ealu f malu,walu,wn,wd, 
ww f stall_lw,stall_fp,stall_lwcl,stall—swcl,stall,mem 一 a, 
mem_data f mem—st 一 data,mem 一 access,mem_write,mem—ready); 

// main memory 

physical—memory mem (mem_a,mem—data,mem—st—data,mem 一 access, 

mem 一 write,mem—ready,clock,memclock,resetn); 


endmodule 


以下是 CPU 模块 cpu_cache_tlb , 包括 IU 、 Cache、TLB 和 FPU 。 

module cpu—cache 一 tlb 

(clock,memclock,resetn, v_jpc, pc,inst,ealu,malu,walu,wn,wd,ww, 
stall 一 lw, stall 一 fp, stall—lwcl, stall__swcl f stall, 
mem — a,mem 一 data,mem 一 st__data,mem_access,mem—write,mem—ready); 
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input clock/memclock^resetn; 

output [31:0] v_pc,pc,inst f ealu/malu,walu; 

output [31:0 】 wd; 

wire [31:0] e3d; 

output [4:0] wn; 

wire [4:0] eln,e2n,e3n; 

output ww f stall—lw,stall—fp,stall 一 lwcl,stall 一 swcl ， stall; 

wire e; // for multithreading CPU, not used here 

wire [4:0] count—div,count—sqrt; // for testing 

output [31:0] mem 一 a; 

input 【 31:0] mem 一 data; 

output [31:0] mem—st—data; 

output mem_access; 

output mem 一 write; 

input mem 一 ready; 

wire [31:0] qfa,qfb,fa,fb,dfa,dfb,mmo,wmo; // for iu 
wire [4:0] fs,ft,fd; 
wire [2:0] fc; 

wire fwdla,fwdlb,fwdfa,fwdfb,wf,fasmds; 

wire elw,e2w,e3w,wwfpr; 

wire no 一 cache 一 stall; 

iu 一 cache 一 tlb i_u (eln,e2n,e3n, elw,e2w,e3w, stall, 1/bO, 
dfb, e3d, clock,memclock,resetn,no 一 cache 一 stall, 
fs,ft,wmo,wrn,wwfpr,mmo,fwdla,fwdlb,fwdfa,fwdfb,fd,fc f wf f 
fasmds,v_pc,pc,inst,ealu,malu,walu f 
stall 一 lw,stall 一 fp,stall 一 lwcl,stall—swcl,mem—a, 
mem 一 data,mem 一 st—data,mem—access,mem 一 write,mem—ready); 
wire [4:0] wrn; 

regfile2w fpr (fs f ft,wd,wn,ww,wmo f wrn f wwfpr f ~clock,resetn, 

qfa # qfb); 

mux2x32 fwd — f 一 load—a (qfa,mmo,fwdla,fa); 
mux2x32 fwd_f_1oad_b (qfb,mmo,fwdlb,fb); 
mux2x32 fwd 一 res — a (fa,e3d,fwdfa,dfa); 
mux2x32 fwd 一 f 一 res—b (fb,e3d,fwdfb,dfb); 
wire [1:0] elc,e2c,e3c; // for fpu 

fpu fp 一 unit (dfa,dfb,fc,wf,fd,no — cache—stall,clock,resetn, 

e3d, wd, wn f ww f stall,eln,elw,e2n,e2w,e3n,e3w, 
elc,e2c,e3c,count—div,count 一 sqrt, e>; 

endmodule 

以下是 IU 模块 iu_cache_tlb , 包括 IU、Cache 和 TLB 。 

module iu 一 cache 一 tlb ( 

eln,e2n,e3n, elw,e2w,e3w, stall,st, 

dfb,e3d, clocks memolock f resetn,no — cache_stall, 

fs, ft, wmo,wrn,wwfpr,mmo,fwdla,fwdlb,fwdfa,fwdfb/fd,fc,wf,fasmds. 
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v_pc,pc, inst ， ealu ， malu ， walu ， 

stall 一 lw, stall 一 fp,stall—lwcl，stall 一 swcl, 

mem 一 a,mem 一 data,mem 一 st — data,mem 一 access ， mem 一 write'mem 一 ready>; 

input [31:0] dfb,e3d; 
input [4:0] eln,e2n,e3n; 

input elw,e2w,e3w, stall, st, clock,memclock f resetn; 

output no 一 cache—st al1; 

output [31:0] v_pc,pc,inst,ealu f malu f walu; 

output [31:0] mmo,wmo; 

output [4:0] fs,ft,fd,wrn; 

output [2:0] fc; 

output wwfpr,fwdla,fwdlb,fwdfa,fwdfb,wf,fasmds; 

output stall—lw,stall—fp,stall—lwcl,stall.swcl; 

output [31:0] mem 一 a; 

input [31:0] mem 一 data; 

output [31:0] mem—st 一 data; 

output mem 一 access; 

output mem 一 write; 

input mem—ready; 

parameter EXC—BASE = 32 f h80000008; // = base = BASE 
wire 【 31:0 】 bpc,jpc,npc,pc4, ins, dpc4,inst,qa,qb,da,db,dimm f dc,dd; 
wire [31:0] simm / epc8,alua,alub,ealuO,ealul,ealu,sa,eb, mmo, wdi; 
wire [5:0] op,func; 

wire [4:0] rs, rt, rd, fs,ft,fd,drn,ern; 
wire [3:0] aluc; 
wire [1:0] pcsource,fwda,fwdb; 
wire wpcir; 

wire wreg f m2reg f wmem,aluimm,shift,jal; 

wire [31:0] qfa,qfb,fa,fb,dfa,dfb,efb,e3d; 

wire [4:0] eln,e2n,e3n,wn; 

wire [2:0] fc; 

wire [1:0] elc,e2c,e3c; 

reg ewfpr,ewreg f em2reg,ewmem,ejal,efwdfe,ealuimm,eshift; 
reg mwfpr,mwreg,iran2reg,mwmem; 
reg wwfpr,wwreg,wm2reg; 

reg [31:0] epc4,ea,ed,eimm,malu,mb,wmo,walu; 
reg [4:0] ernO,mrn,wrn; 
reg [3:0] ealuc; 

//IF 

P—c vpc (next_pc,clock,resetn,wpcir&no 一 cache 一 stall,v__pc) ; // VPC 
cla32 pc 一 plus4 (v 」 pc,32’h4,1'bO,pc4); // VPC+4 
mux4x32 nextpc (pc4,bpc,da,jpc,pcsource,npc}; // Next PC 
wire tlbwi f tlbwr; 

wire itlbwi = tlbwi & ^index[30]; // itlb write 
wire itlbwr = tlbwr & "index[30]; 
wire dtlbwi = tlbwi & index[30]; // dtlb write 
wire dtlbwr = tlbwr & index[30]; 
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wire [19:0] ipattern = (itlbwi | itlbwr) ? enthi[19:0] : v_pc[31:12]; 

wire pc_unmapped = v_pc[31] & ~v_pc[30]; // lOx 

assign pc = pc—unmapped?{1’bO,v_pc[30:0 】 }:{ipte 一 out[19:0] ， v_pc[11:0]}; 

wire [2:0J irandom; 

wire [23:0] ipte 一 out; 

wire it lb—hit; 

wire [2:0] ivpn—index; 

wire ivpn 一 found; 

tlb 一 8 一 entry itlb (entlo[23:0 ] 9 itlbwi, itlbwr, index[2:0], ipattern, 

memclock, clock, resetn, 

irandom, ipte 一 out, itlb_hit, ivpn 一 index, ivpn_found); 
wire itlb 一 exc = ~itlb_hit & ”pc—unmapped; 
wire i 一 ready,i 一 cache 一 miss; 

i 一 cache icache (pc,ins, 1/ bl,i_ready,i 一 cache 一 miss,clock,resetn, 

in — i — a, mem 一 data, m 一 fetch, m — i_ready); 

// IF-ID pipeline registers 

dffe32 pc_4_r (pc4, clock,resetn,wpcir&no 一 cache 一 stall,dpc4}; // PC4 
dffe32 inst_r (ins, clock,resetn,wpcir&no—cache_stall,inst}; // IR 
dffe32 pcd 一 r (v_pc,clock,resetn,wpcir&no—cache 一 stall,pcd); // PCD 

wire [31:0] pcd; 

"ID 

assign op = inst[31:26]; 

assign rs = inst[25:21 】； 

assign rt = inst[20:16 】； 

assign rd = inst[15:11]; 

assign ft = inst[20:16]; 

assign fs = inst[15:11]; 

assign fd = inst[10:6]; 

assign func = inst[5:0]; 

assign simm = {{16{sext&inst[15]}}, inst[15:0]}; 
assign jpc = {dpc4[31:28],inst[25:0],2’bOO}; // jump target 
cla32 br 一 addr (dpc4,{simm[29:0],2’bOO},1'bO,bpc>; // branch target 
regfile rf (rs,rt,wdi,wrn,wwreg,'clock,resetn,qa,qb); // reg file 
mux4x32 alu 一 a (qa,ealu,malu,mmo,fwda,da); // forward A 
mux4x32 alu_b (qb,ealu,malu,mmo,fwdb,db); // forward B 
wire swfp, regrt,sext,fwdf,fwdfe,wfpr; 
mux2x32 store—f (db,dfb,swfp,dc) ; // swcl 
mux2x32 fwd_f_d (dc,e3d,fwdf,dd}; // forward fp result 
wire rsrtequ = ~|(da^db); // rsrtequ = (da == db) 

mux2x5 des — reg 一 no (rd,rt,regrt,drn); // destination reg 
wire wepc,wcau,wsta,isbr,cancel,exc,ldst; 
wire [1:0] sepc # selpc; 

control cu (op,func,rs,rt,rd,fs,ft,rsrtequ, 

ewfpr,ewreg,em2reg,ern, 
mwfpr,mwreg / mm2reg,mrn, 
elw,eln,e2w,e2n,e3w,e3n,stall,st, 
pcsource,wpcir,wreg,m2reg,wmem / jal,aluc. 


// control unit 
// from iu 
// from iu 
// from fpu 
// iu 
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sta,aluimm,shift,sext,regrt,fwda,fwdb, // iu 

swfp,fwdf,fwdfe,wfpr, // used by iu 

fwdla,fwdlb,fwdfa,fwdfb,fc,wf,fasmds, // used by fpu 

stall 一 lw,stall 一 fp,stall_lwcl,stall 一 swcl, // for testing 

windex,wentlo,wcontx,wenthi,rcO,wcO,tlbwi,tlbwr, // for tlb 
cOrn,wepc,wcau,wsta,isbr,sepc,cancel,cause,exc,selpc,ldst, 
wisbr,ecancel,itlb_exc,dtlb 一 exc); 
wire [31:0] index; // cpO reg 0: index 

wire [31:0] entlo; // cpO reg 2 : entry lo 

reg [31:0] contx; // cpO reg 4 : context 

wire [31:0] enthi; // cpO reg 9 : entry hi 

wire windex,wentlo,wcontx,wenthi; // write enables 

wire rc0,wc0; // read,write cO res 

wire 【 1:0] cOrn; // cO reg # for mux 

dffe32 cO 一 Index (db,clock,resetn,windex&no—cache 一 stall,index); // index 
dffe32 c0—Entlo (db,clock,resetn,wentlo&no 一 cache 一 stall,entlo); // entlo 
dffe32 cO 一 Enthi (db,clock,resetn,wenthi&no 一 cache—stall,enthi); // enthi 
always @(negedge resetn or posedge clock) // contx 

if (resetn == 0) begin 
contx <= 0; 
end else begin 

if (wcontx) contx[31:22 】 <=db[31:22 】； // PTEBase 

if (itlb 一 exc) contx [21:0] <= {v__pc [31: 12 】 ， 2’bOO }; // BadVPN 
else if (dtlb 一 exc) contx[21:0] <= {malu[31: 12 】 ， 2’b00}; 

end 

wire [31:0] sta, cau,epc,sta — in,cau—in,epc 一 in, // for exception 

stair,epcin,epclO,cause,cOreg,next_pc; 
dffe32 cO 一 Status (sta—in,clock,resetn,wsta&no—cache—stall,sta); // sta 

dffe32 cO 一 Cause (cau 一 in,clock,resetn,wcau&no—cache—stall,cau); // cau 

dffe32 cO—EPC (epc 一 in,clock,resetn,wepc&no 一 cache—stall,epc); // epc 

mux2x32 sta 一 mx (stair,db,wcO,sta 一 in); // mux for Status reg 

mux2x32 cau 一 mx (cause,db,wcO,cau 一 in); // mux for Cause reg 

mux2x32 epc_mx (epcin,db,wcO,epc 一 in>; // mux for EPC reg 

mux2x32 sta」r ({ 8 f h0 f sta [31:8] }, {sta[23:0 】， 8’h0}, exc, stair); 
mux4x32 epc 一 04 (v_pc,pcd,pcm,pew,sepc,epcin}; // epc source 
mux4x32 irq—pc (npc,epc,EXC 一 BASE,32'hO,selpc,next_pc); // for PC 
mux4x32 fromcO (contx,sta,cau,epc,ecOrn,cOreg); // for mfcO 

// ID-EXE pipeline registers 
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eshift 

<= 

0; 

epc4 

<= 

0 

ea 

<= 

0; 

ed 

<= 

0 

eimm 

<= 

0; 

ernO 

<= 

0 

ercO 

<= 

0; 

ecOrn 

<= 

0 

ecancel 

<= 

0; 

eisbr 

<= 

0 

pee 

<= 

0; 

eldst 

<= 

0 


end else if (no 一 cache—stall) begin 


ewfpr 

<= 

wfpr; 

ewreg 

<= 

wreg; 

em2reg 

<= 

n\2reg; 

ewmem 

<= 

wmem; 

e jal 

<= 

jal; 

ealuimm 

<= 

aluimm; 

efwdfe 

<= 

fwdfe; 

ealuc 

<= 

aluc; 

eshift 

<= 

shift; 

epc4 

<= 

dpc4; 

ea 

<= 

da; 

ed 

<= 

dd; 

eimm 

<= 

sinun; 

ernO 

<= 

drn; 

ercO 

<= 

rcO; 

ecOrn 

<= 

cOrn; 

ecancel 

<= 

cancel; 

eisbr 

<= 

isbr; 

pee 

<= 

ped; 

eldst 

<= 

ldst; 


end 
// EXE 

cla32 ret 一 addr (epc4,32’h4,1’bO,epc8); // PC+8 
assign sa = {eimm[5:0 】 ， eimm[31:6]}; // shift amount 
mux2x32 alu 一 ina (ea,sa,eshift,alua); // ALU input A 
mux2x32 alu_inb (eb,eimm,ealuimm,alub); // ALU input B 
mux2x32 save_pc8 (ealuO,epc8,ejal,ealul); // PC+8 if jal 
mux2x32 read 一 crO (ealul,cOreg,ercO,ealu); // read cO regs 
wire z; 

alu al 一 unit (alua,alub,ealuc,ealuO,z); // ALU 

assign ern = ernO | {5{ejal}}; // r31 for jal 

mux2x32 fwd 一 f_e (ed,e3d,efwdfe,eb); // forward fp result 

// EXE-MEM pipeline registers 

reg [31:0] pcm; 

reg misbr,midst; 

always @(negedge resetn or posedge clock) 
if (resetn == 0) begin 


mwfpr 

<= 

0 

mwreg 

<= 

0 

mm2reg 

<= 

0 

mwmem 

<= 

0 

malu 

<= 

0 

mb 

<= 

0 

mrn 

<= 

0 

misbr 

<= 

0 

pem 

<= 

0 

midst 

<= 

0 


end else if (no_cache 一 stall) begin 


mwfpr 

<= 

ewfpr 

& 

"dtlb_exc; 

// 

cancel 

mwreg 

<= 

ewreg 

& 

~dtlb_exc; 

// 

cancel 

mwmein 

<= 

ewmem 

& 

_dtlb 一 exc; 

// 

cancel 

midst 

<= 

eldst 

& 

■~dt lb 一 exc; 

// 

cancel 

mm2reg 

<= 

em2reg 

« 

/ 




malu 

<= 

ealu; 


mb 

<= 

c eb; 

mrn 

<= 

ern; 


misbr 

<= 

=eisbr; 
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pcm 


< 


pee 


end 
// MEM 

wire [19:0] dpattern 
wire ma_unmapped 
wire [31:0] m 一 addr 




(dtlbwi I dtlbwr) ? enthi[19:0] : malu[31:12]; 

malu[31] & 'malu[30]; // lOx; malu: va of data 
ma_unmapped? {1 9 bO/malu[30:0]} : 

{dpte_out[19:0], malu[11:0]}; 


wire [2:0] drandom; 
wire [23:0] dpte 一 out 


wire 


dtlb hit 


wire [2:0] dvpn 一 index; 

dvpn_found; 


wire 


tlb 一 8 一 entry dtlb (entlo[23:0 ] 9 dtlbwi, dtlbwr, index[2:0], dpattern, 

memclock, clock, resetn. 


wire dtlb 


drandom, dpte — out f dtlb 一 hit, dvpn 一 index, dvpn 一 found); 
dtlb 一 hit & _ma 一 unmapped & midst; 


wire d—ready; 

wire w 一 mem = mwmem & - dtlb 一 exc; // cancel sw/swcl in mem stage 
d — cache dcache (m 一 addr,mb,mmo,midst,w 一 mem,d 一 ready,clock,resetn, 

m_d—a,mem 一 data,mem 一 st 一 data,m—ld—st,st,d—ready); 
II MEM-WB pipeline registers 
reg [31:0] pew; 
reg wisbr; 

always @(negedge,resetn or posedge clock) • 

if (resetn == 0) begin • 


wwfpr 

<= 

0; 

wwreg 

<= 

0 

wm2reg 

<= 

0; 

wmo 

<= 

0 

walu 

<= 

0; 

wrn 

<= 

0 

pew 

<= 

0; 

wisbr 

<= 

0 

end else if 

(no 

一 cache_ 

—stall) begin 




wwfpr 

<= 

mwfpr & 

'dtlb — exc; 

// 

cancel 

lwcl 

in 

wb 

stage 

wwreg 

<= 

mwreg & 

~dtlb—exc; 

// 

cancel 

lw 

in 

wb 

stage 

wm2reg 

<= 

mm2reg; 

wmo 

<= 

=mmo; 





walu 

<= 

malu; 

wrn 

<= 

=mrn; 





pew 

<= 

pcm; 

wisbr 

<= 

: misbr; 






end 
// WB 

mux2x32 wb—sel (walu, wmo,wm2reg,wdi); 

// for main 一 memory access 
wire m 一 fetch,m—ld 一 st,m 一 st; 
wire [31:0] i_a,m_d—a; 

// mux, i 一 cache has higher priority than d—cache 
wire sel—i = i 一 cache 一 miss; 

assign mem 一 a = sel_i? m 一 i_a : m 一 d—a; 

assign mem—access = sel—i? fetch : m_ld_st; 
assign mem—write = sel 一 i? 1^ bO : m_st; 

// demux 
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wire m_i_ready = mem 一 ready & sel 一 i; 
wire m 一 d_ready = mem 一 ready & - sel_i; 

assign no—cache—stall = ' 「 i 一 ready | midst & ready); 
endmodule 


以下是控制部件模块 controlo 


module control (op, func, rs,rt,rd,fs,ft,rsrtequ, 

. ewfpr,ewreg,em2reg,ern, 

mwfpr,mwreg f mm2reg,mrn, 

elw, eln, e2w f e2n, e3w f e3n f stall—div_sqrt,st, 
pcsource,wpcir,wreg,m2reg,wmem,jal,aluc. 


// control unit 
// from iu 
// from iu 
// from fpu 
// iu 


input 

input 

input 

input 

input 

output 

output 

output 


sta, aluimm,shift,sext,regrt,fwda,fwdb, 
swfp,fwdf,fwdfe,wfpr f 

fwdla,fwdlb,fwdfa,fwdfb,fc,wf,fasmds, 
stall_lw, stall_fp, stall 」 wcl, stall—swcl. 


// iu 

// for lwcl f swcl 
// used by fpu 
// for testing 


windex, wentlo, wcontx,wenthi,rcO,wcO,tlbwi,tlbwr, // for tlb 
cOrn,wepc,wcau,wsta,isbr,sepc,cancel, cause,exc,selpc,ldst, 
wisbr,ecancel,itlb 一 exc,dtlb 一 exc); 
rsrtequ, ewreg,em2reg / ewfpr, mwreg,mm2reg,mwfpr; 
elw,e2w # e3w,stall_div_sqrt, st; 

[5:0] op,func; 

[4:0] rs, rt,rd, fs, ft,ern,mrn,eln,e2n,e3n; 

[31:0] sta; // IM[7:0] : x,x,dtlb 一 exc,itlb—exc,ov,unimpl,sys,int 


wpcir,wreg,m2reg,wmem # jal,aluimm,shift,sext,regrt; 

swfp,fwdf # fwdfe; 

fwdla,fwdlb,fwdfa,fwdfb; 


output wfpr,wf,fasmds; 
output [1:0] pcsource,fwda,fwdb; 
output [3:0] aluc; 
output [2:0] fc; 

output stall—lw, stall—fp,stall—lwcl,stall—swcl; // for testing 

output windex,wentlo,wcontx,wenthi,rcO,wcO, tlbwi, tlbwr; // for tlb 

output [1:0] cOrn,sepc,selpc; 

output wepc, wcau,wsta,isbr,cancel,exc,ldst; 

output [31:0] cause; 

input wisbr,ecancel,itlb 一 exc,dtlb_exc; 


assign ldst = (i—lw | i 一 sw | i 一 lwcl | i 一 swcl) & ~ecancel & ~dtlb 一 exc; 

assign isbr = i—beq | i 一 bne | i_j | i 一 jal; 


// 

itlb. 

一 exc dtlb. 

一 exc isbr 

wisbr 

EPC 

sepc[1:0] 

// 

1 

X 

# 

0 

X 

V_PC 

0 

0 

// 

1 

X 

1 

X 

PCD 

0 

1 

// 

0 

1 

X 

0 

PCM 

1 

0 

// 

0 

1 

X 

1 

PCW 

1 

1 


assign sepc[1] = - itlb 一 exc & dtlb—exc; 

assign sepc[0] = itlb_exc & isbr | ~itlb_exc & dtlb 一 exc & wisbr; 
assign exc = itlb 一 exc & sta[4] | dtlb—exc & sta[5]; // mask 



13.4 带有 Cache 及 TLB 的 CPU 设计 


401 


assign cancel = exc; 
// selpc 
// 0 0 : npc 
"01: epc 
// 1 0 : EXC 一 BASE 
// 1 1 : x 


assign selpc[1] = exc; 
assign selpc[0] = i 一 eret; 

//op rs rt rd 

// 010000 00100 xxxxx xxxxx 00000 

// 010000 00000 xxxxx xxxxx 00000 

// 010000 10000 00000 00000 00000 

// 010000 10000 00000 00000 00000 

// 010000 10000 00000 00000 00000 


func 

000000 mtcO rt, 
000000 mfcO rt, 
000010 tlbwi 
000110 tlbwr 
011000 eret 


rd; cO[rd] < — gpr[rt] 
rd; gpr[rt] < —— cO[rd] 


wire i 一 mtcO 

wire i_mfcO 
wire i—eret 
assign tlbwi 
assign tlbwr 
assign windex 
assign wentlo 
assign wcontx 
assign wenthi 
assign wsta 
assign wcau 
assign wepc 
//wire rcontx 
wire rstatus 
wire rcause 
wire repc 


=(op==6 f hlO) & (rs==5 / h04) & (func==6 / hOO); 

=(op==6 / hlO) & (rs==5 f hOO) & (func==6 f hOO); 

=(op==6 f hlO) & (rs==5 f hlO) & (func==6 # hl8); 

=(op==6 f hlO) & (rs==5 f hlO) & (func==6,h02); 

=(op==6 # hlO) & (rs==5 f hlO) & (func==6 / h06); 

=i 一 mtcO St (rd==5’h00); // write index 
=i 一 mtcO & (rd==5’h02); // write entry 一 lo 
=i_mtc0 & (rd==5 f h04); // write context 

=i_mtc0 & (rd==5 # h09); // write entry 一 hi 

=i_mtc0 St (rd==5 # hOc) | exc | i 一 eret; // write status 

二 i—mtcO & (rd==5 f hOd) I exc; // write cause 

=i_mtc0 & (rd==5 f hOe) | exc; // write epc 

=i_mfc0 & (rd==5 f h04); // read context 

=i 一 mfcO & (rd==5 f hOc); // read status 

=i 一 mfcO & (rd==5 # hOd); // read cause 

=i 一 mfcO & (rd==5 # hOe); // read epc 


assign cOrn[1] = rcause | repc; // cOrn 00 01 10 11 

assign cOrn[0] = rstatus | repc; // contx sta cau epc 

assign rcO = i 一 mfcO; // read cO regs 

assign wcO = i—mtcO; // write cO regs 

wire [2:0] exccode; 

// 100 00 itlb 一 exc 


// 101 00 dtlb.exc 


assign exccode[2] = itlb 一 exc | dtlb—exc; 
assign exccode[1] = l f bO; 
assign exccode[0] = dtlb 一 exc; 
assign cause = {27 f h0 f exccode # 2 f bOO); 

wire r—type,i_add,i—sub,i—and,i 一 or,i 一 xor,i 一 sll,i — srl,i 一 sra,i 一 jr; 
and (r 一 type, // r format 

and(i—add,r_type, func 【 5], ~func[4] , 一 func[3 】， ~func[2], ~ func[1] , ~func[0]); 
and(i 一 sub,r—type, func[5 】， —func[4], 〜 func[3】，^ func[2], func [1], ~func[0]); 
and(i 一 and,r—type, func[5],~func[4],~ func[3], func[2], 〜 func[1], 〜 func[0]); 
and(i—or, r — type, func[5 】 ，— func[4] , 〜 func[3] , func [2] , ^ func[1] , func[0]); 
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and(i—xor ， r 一 type, func[5] f 'func[4] # ~func[3 】， func[2], func[1] / ~func[0]); 

and(i—sll,retype,~func 【 5],’func[4] # 'func[3] f ~func[2] f "func[1] ， ~func[0]); 

and(i_srl # r—type,~func[5]^'func [A], ^ func[3] f ~func[2 ], func[1]/^func[0]); 

and(i_sra f retype,"func[5] # ~func[4],~func[3] f ’func[2] # func [1], func[0]); 

and(i—jr, r 一 type, - func[5 】， 'func[4], func[3 】， 'func 【 2],'func[1]/ 一 func[0]); 

wire i—addi,i—andi,i_ori # i_xori f i_lw,i_sw # i—beq,i—bne,i_lui; 

and(i_addi,-op[5 】， -op 【 4], op[3] ， op[2],-op[l] ， op[0】>; 

and(i—andi, - op[5],~op[4], op[3], op 【 2],'op[l], 一 op[0】}; 

and(i_ori # ~op[5 】 ， ‘op 【 4 ], op[3] f op[2] ， ~op[1] ， op[0]); 

and(i—xori,~op[5 】， -op[4], op[3 】， op[2], op[1] f ~op[0]); 

and(i_Lw, op[5],*op[4] # "op[3] # "op[2], op 【 l], op[0]); 

and(i_sw ， op[5] ， _op[4] ， op[3] ， 'op[2] ， op[1] f op[0]); 

and(i—beq, ~op[5] f 'op[4],~op[3] f op[2] f 'op[l] f ^op[0]); 

and(i_bne, *'op[5] f ~op[4] f 'op[3] r op [2] f "op [1] f op [ 0 ]); 

and(i_liai, -op[5],_op 【 4], op[3 】， op[2 】， op[l], op[0]); 

wire i 一 j,i—jal; 

and(i_j, ~op [5] f ~op [4 ], "*op [3] , ~op [2] f op [ 1 ] f ~op [0]); 
and(i_jal f ~op [5] f ~op [4] , "*op [3] # "op [2], op [ 1 ] f op [0]); 
wire f 一 type, i 」 wcl, i 一 swcl, i 一 fadd, i 一 fsub, i_fmul, i 一 fdiv, i—fsqrt; 
and(f—type f ~op[5], op[4] f ^op[3] f 'op[2] f 'op[1] f op[0]); II f format 
and 《 i_lwcl, op[5] f op[4] f "op[3] # "op[2] f *op[l] # op[0]); 
and(i_swcl, op [ 5 ] f op[4], op[3] ,_op 【 2] rop[l], op[0 】）； 

and (i—fadd, f 一 type, ~func [5], ’func [ 4 ] , ~ func [3 】 ，~ func [2], ^ func [ 1 ], "* func [0]); 
and (i—f sub, f 一 type, func [5], ’func [4 ], ~ func [ 3】 ，' func [2], ~ func [ 1 ] , func [0]); 
and (i 一 fmul, f 一 type, "func [5】，"*func [4 ] , ~func [3】，~func [2], func [ 1 ], ~ func [0 ]); 
and(i—fdiv,f 一 type,~func[5],’func[4] , ~func [3], 'func[2] , func [1], func[0]); 
and (i 」 sqrt, f 一 type, ’ func [5] , _ func [4 ], 〜 func [3] , func [2], " func [ 1 ], "* func [0]); 
wire i_rs = i 一 add I i_sub I i_and I i_or | i_xor I i_jr I i 一 addi I 

i—andi I i_ori I i—xori I i_lw | i_sw | i—beq I i 一 bne I 

i_lwcl I i_swcl; 

wire i_rt = i 一 add I i 一 sub I i 一 and | i_or | i—xor | i 一 sll | i_srl | 

i_sra I i 一 sw | i 一 beq | i_bne | i 一 mtcO; 

assign stall」w = ewreg & em2reg & (ern ! = 0) & (i_rs & (ern == rs) | 

i 一 rt & (ern == rt)); 

reg [1:0] fwda, fwdb; 

always @ (ewreg or mwreg or ern or mrn or em2reg or mm2reg or rs or 

rt) begin 

fwda = bOO; // default forward a: no hazards 
if (ewreg & (ern != 0) & (ern == rs) & ^em2reg) begin 
fwda = 2 # bOl; // select exe 一 alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rs) & ~mm2reg) begin 
fwda = 2 f blO; // select mem 一 alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rs) & mm2reg) begin 
fwda = 2’bll; // select mem_lw 


end 
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end 

end 

fwdb = bOO; // default forward b: no hazards 
if (ewreg & (ern != 0) & (ern == rt) & ~em2reg} begin 
fwdb = bOl; // select exe_alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rt) & ~mm2reg) begin 
fwdb = 2’blO; // select mem 一 alu 
end else begin 

if (mwreg & (mrn != 0) & (mrn == rt) & mm2reg) begin 
fwdb = 2 f bll; // select mem 一 lw 

end 

end 

end 

end 

assign wreg =(i 一 add | i 一 sub | i—and | i—or | i 一 xor | i_sll | 

i 一 srl I i 一 sra | i 一 addi | i_andi | i 一 ori | i_xori | 

i_lw I i—lui I i—jal | i_mfc0) & 

wpcir & -ecancel & ~dtlb—exc; 

assign regrt. = i—addi | i_andi | i_ori | i 一 xori | i_lw | i_lui | 

i 一 lwcl I i 一 mfcO; 

assign jal = i—jal; 

assign m2reg = i 一 lw; 

assign shift = i—sll | i 一 srl | i 一 sra; 

assign aluimm = i—addi I i 一 andi | i—ori | i_xori | i_lw | i」ui | 

i_sw I i」wcl I i 一 swcl; 

assign sext = i 一 addi | i—lw | i—sw | i 一 beq | i—bne | i_lwcl | i_swcl; 
assign aluc[3] = i 一 sra; 

assign aluc[2] = i—sub | i_or I i—srl | i 一 sra | i_ori | i 一 lui; 

assign aluc[1] = i_xor I i 一 sll | i 一 srl | i 一 sra | i 一 xori | i 一 beq | 

i 一 bne | i_lui; 

assign aluc[0] = i 一 and | i — or | i—sll | i_srl | i 一 sra | i—andi | i 一 ori; 

assign wmem = (i—sw | i_swcl) & wpcir & 'ecancel & “dtlb 一 exc; 

assign pcsource 【 l 】 =i_jr I i 一 j I i—jal; 

assign pcsource[0 】 =i_beq & rsrtequ | i 一 bne & "rsrtequ | i_j | i 一 jal; 
// fop: 000 : fadd 001 : fsub Olx: fmul lOx: fdiv llx : fsqrt 
wire 【 2:0] fop; 

assign fop[0] = i 一 fsub; // fpu operation control code 
assign fop[1] = i_fmul | i_fsqrt; 
assign fop[2] = i_fdiv | i_fsqrt; 

// stall caused by fp data harzards 

wire i_fs = i_fadd I i 一 fsub | i 一 fmul | i_fdiv | i 一 fsqrt; // use fs 

wire i_ft = i_fadd | i 一 fsub | i_fmul | i 一 fdiv; // use ft 

assign stall 一 fp = (elw & (i_fs & (eln == fs) | i_ft & (eln == ft))) | 

(e2w & (i 一 fs & (e2n == fs) I i_ft & (e2n == ft))); 
assign fwdfa = e3w & (e3n == fs); // forward fpu e3d to fp a 

assign fwdfb = e3w & (e3n == ft); // forward fpu e3d to fp b 
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assign wfpr = i 一 lwcl & wpcir & —ecancel & ~dtlb 一 exc; // fp regfile we 
assign fwdla = mwfpr & (mrn == fs); // forward mmo to fp a 

assign fwdlb = mwfpr & (mrn == ft); // forward mmo to fp b 

assign stall_lwcl = ewfpr & (i_fs & (ern == fs) | i — ft & (ern == ft)); 
assign swfp = i 一 swcl; // select signal 

assign fwdf = swfp & e3w & (ft == e3n); // forward to id stage 

assign fwdfe = swfp & e2w & (ft == e2n); // forward to exe stage 

# 

assign stall 一 swcl = swfp & elw & (ft == eln); // stall 
assign wpcir = ~(stall 一 div 一 sqrt | stall—others); 

wire stall 一 others = stall—lw | stall_fp | stall 一 lwcl | stall_swcl | st; 
assign f c = fop & { 3 {""stall 一 others}}; 
assign wf = i 一 fs & wpcir; 
assign fasmds = i 一 fs; 
endmodule 


以下是主存模块，分为 4 个区间。 


module physical 一 memory # (parameter A—WIDTH = 32) 

(a, dout, din, strobe, rw, ready, elk, memclk, 
input [A—WIDTH-1:0] a; 
output [31:0] dout; 


input [31:0] 

input 

input 


din; 

strobe; 

rw; 


output 

input 

// for memory ready 

reg [2:0] 

reg 


ready; 

elk, memclk, clrn 


wait 一 counter 
ready; 


always @ (negedge clrn or posedge elk) begin 


if (clrn == 0) begin 

wait 一 counter <= 3'bO; 
end else begin 


if (strobe) begin 

if (wait 一 counter == 3’h5) begin 

ready <= l f bl; 
wait 一 counter <= 3^0; 
end else begin 

ready <= 1 f bO; 

wait 一 counter <= wait—counter + 

end 


clrn); 


3 f bl; 


end else begin 

ready <= l f b0; 
wait—counter <= 3 f bO; 


end 


end 


end 
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// 31 30 29 28…15 14 13 12 ... 3 2 1 0 

" 0000 0 0 0 0 0 0 0 0 (0) 0x0000 一 0000 

" 0001 0 0 0 0 0000 (1) 0x1000 一 0000 

" 0010 0 0 0 0 0000 ⑵ 0x2000 一 0000 

" 0010 0 0 1 0 0000 (3) 0x2000 一 2000 

wire [31:0] m 一 out32 = a [13] ? mem 一 data 一 out 3 : mem 一 data 一 out2; 

wire [31:0] m 一 out10 = a[28] ? mem 一 data—out1 : mem_data_out0; 

wire [31:0] mem—out = a [29] ? m 一 out32 : m—out10; 

assign dout = ready ? mem_out : 32 〃 hzzzz 一 zzzz; 

// (0) 0x0000 一 0000- (virtual address 0x8000—0000-) 
wire [31:0] mem_data_out0; 

wire write—enableO = "^a [29] & ” a [28】& rw & "elk; 

lpm 一 ram 一 dq ramO (.data(din),.address(a[8:2]), 

.we(write 一 enableO),•inclock(memclk ), 

.outclock(memclk&strobe ), .q(mem_data 一 outO ) 〉 ； 
defparam ramO•lpm 一 width = 32; 

defparam ramO•lpm—widthad = 7; 

defparam ramO•lpm 一 indata = "registered ”； 

defparam ramO.lpm_outdata = "registered ”； 

defparam ramO . lpm_f ile = 11 cpu_cache_tlb_0 .mif 11 ; 
defparam ramO•lpm 一 address—control = "registered"; 

// (1) 0x1000 一 0000 - (virtual address 0x9000 一 0000 -） 
wire [31:0] mem 一 data 一 out1; 

wire write—enablel = "a[29] & a[28] & rw & 'elk; 

lpm_ram—dq rami (•data(din),•address(a[8:2]), 

•we(write 一 enablel),•inclock(memclk ), 

. outclock(memclk&strobe ) 9 .q(mem—data_outl)); 
defparam rami•lpm 一 width = 32; 

defparam rami • lpm 一 widthad = 7; 

defparam rami•lpm 一 indata = "registered"; 

defparam rami•lpm_outdata = "registered"; 

defparam rami • lpm—file = f, cpu_cache__tlb_l .mif H ; 
defparam rami•lpm 一 address 一 control = "registered ”； 

// (2) 0x2Q00—0000- (mapped va 0x0000 一 0000 -〉 
wire [31:0] mem 一 data 一 out2; 

wire write 一 enable2 = a[29] & [13] & rw & —elk; 

lpm—ram—dq ram2 (.data(din),.address(a[8:2]), 

.we(write 一 enable2),•inclock(memclk ), 

•outclock(memclk&strobe) , .q(mem—data 一 out2)); 
defparam ram2•lpm 一 width = 32; 

defparam ram2.1pm—widthad = 7; 

defparam ram2•lpm—indata = "registered"; 
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defparam 

defparam 

defparam 


ram2.1pm—outdata = "registered ”； 

ram2.1pm 一 file = ”cpu 一 cache 一 tlb 一 2 .mif f, ; 

ram2•1pm 一 address 一 control = "registered ”； 


// (3) 0x2000 一 2000- (mapped va 0x0000 一 0000-) 
wire [31:0] mem 一 data 一 out3; 

wire write 一 enable3 = a[29] & a[13] & rw & ~clk; 

lpm 一 ram_dq ram3 (•data(din) , •address(a[8:2 】 ）， 

.we(write 一 enable3),•inclock(memclk ), 


defparam 

defparam 

defparam 

defparam 

defparam 

defparam 

endmodule 


•outclock(memclk&strobe),•q(mem_data_out3)); 
ram3•lpm—width = 32; 

ram3.lpm 一 widthad = 7; 
ram3•lpm 一 indata = "registered"; 
ram3.lpm_outdata = "registered"; 
ram3•lpm 一 file = "cpu 一 cache 一 tlb 一 3.mif"; 

ram3.lpm 一 address 一 control = "registered ”； 


13.5 带有 Cache 及 TLB 的 CPU 的测试程序和仿真波形 


本节给出 CPU 的测试程序及数据。以下是初始化和异常处理程序。 


DEPTH = 128; 
WIDTH = 32; 


% Memory depth and width are required % 
% Enter a decimal number % 


ADDRESS—RADIX = HEX; 
DATA^RADIX = HEX; 

CONTENT 


% Address and value radixes are optional % 
% Enter BIN, DEC, HEX, or OCT; unless % 
% otherwise specified, radixes = HEX % 


BEGIN 


% physical address = 0x0000 一 0000 



% reset entry. 

va = 

0x8000—0000 

0: 

08000070; % 

(00) 

_ 

D 

init 

1: 

m 

00000000; % 

% EXC BASE: 

(04) 

nop 



jump to init 

exception/interrupt entry 


2: 401a6800 
3 : 335a001c 
4: 3clb8000 
5: 037ad825 
6: 8f7b0040 
7: 00000000 
8: 03600008 
9: 00000000 
[a• • f] : 0; 


% 

(08) 

mf cO 

r26 f 

% 

(0c) 

andi 

r26, 

% 

(10) 

lui 

r27. 

% 

(14) 

or 

r21, 

% 

(18) 

lw 

r27. 

% 

(lc) 

nop 


% 

(20) 

• 

Ur 

r27 

% 

(24) 

nop 



C0_CAUSE # read cpO Cause reg 

r26, Oxlc # get ExcCode, 3 bits here 

0x8000 # 

r27, r26 # 

j_table(r27># get address from table 

# 

# jump to that address 

# 


% j 一 table: 

10: 80000030; % (40) 
11: 8000003c; % (44) 


# address table for exception and interrupt 
int 一 entry # 0. address for interrupt 
sys 一 entry # 1. address for Syscall 


% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 
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12: 

80000054; 

% 

(48) 

uni— 

entry 

# 

2. 

address 

for 

Unimpl. inst. 

% 

13: 

80000068; 

% 

(4c) 

ovf_ 

entry 

# 

3. 

address 

for 

Overflow 

% 

14: 

800000c0; 

% 

(50) 

itlb 

_entry 

# 

4. 

address 

for 

itlb miss 

% 

15: 

80000140; 

% 

(54) 

dtlb 

一 entry 

# 

5. 

address 

for 

dtlb miss 

% 

16: 

80000000; 

% 

(58) 








% 

17: 

80000000; 

% 

(5c) 








% 

[18 

"2f] : 0; 












% itlb_entry: 


30: 

3clb8000; 

% 

(CO) 

lui 

r27 f 

0x8000 

31: 

8f7a01f8; 

% 

(c4) 

lw 

r26 f 

0xlf8(r27) 

32: 

235a0001; 

% 

(c8) 

addi 

r26 f 

r26 f 1 

33: 

335a0007; 

% 

(cc) 

andi 

r26 f 

r26, 7 

34: 

af7a01fc; 

% 

(d0) 

sw 

r26. 

Oxlfc(r27) 

35: 

3clb0000; 

% 

(d4) 

lui 

r27 # 

0x0000 

36: 

037ad025; 

% 

(d8) 

or 

r26 f 

r27 f r26 

37: 

409a0000; 

% 

(dc) 

mtcO 

r26 f 

CO 一 INDEX 

38: 

401b2000; 

% 

(e0) 

mf cO 

r27 f 

CO 一 CONTEXT 

39: 

8f7a0000; 

% 

(e4) 

lw 

r26. 

0x0(r27) 

3a: 

409al000; 

% 

(e8) 

mtcO 

r26 f 

CO 一 ENTRY 一 LO 

3b: 

001bd280; 

% 

(ec) 

sll 

r26 f 

r27, 10 

3c : 

001ad302; 

% 

(f0) 

srl 

r26 f 

r26 f 12 

3d: 

409a4800; 

% 

(f4) 

mtcO 

r26 f 

C0—ENTRY—HI 

3e : 

42000002; 

% 

(f8) 

tlbwi 


3f: 

42000018; 

% 

(fc) 

eret 



40: 

00000000; 

% 

(100) 

nop 



[41 

• • 4f] : 0; 







% dtlb—entry 

• 

參 




50: 

3clb8000; 

% 

(140) 

lui 

r27 f 

0x8000 

51: 

8f7a01fc; 

% 

(144) 

lw 

r26 f 

Oxlfc(r27) 

52: 

235a0001; 

% 

(148) 

addi 

r26 f 

r26, 1 

53: 

335a0007; 

% 

(14c) 

andi 

r26 f 

r26, 7 

54: 

af7a01fc; 

% 

(150) 

sw 

r26 f 

0xlfc(r27) 

55: 

3clb4000; 

% 

(154) 

lui 

r27 f 

0x4000 

56: 

037ad025; 

% 

(158) 

or 

r26, 

r27 # r26 

57: 

409a0000; 

% 

(15c) 

mtcO 

r26 f 

C0_INDEX 

58: 

401b2000; 

% 

(160) 

mf cO 

r27. 

CO 一 CONTEXT 

59: 

8f7a0000; 

% 

(164) 

lw 

r26 f 

0x0 (r27) 

5a : 

409al000; 

% 

(168) 

mtcO 

r26 f 

CO 一 ENTRY—LO 

5b: 

001bd280; 

% 

(16c) 

sll 

r26 f 

r27, 10 

5c : 

001ad302; 

% 

(170) 

srl 

r26 f 

r26 f 12 

5d: 

409a4800; 

% 

(174) 

mtcO 

r26 f 

C0_ENTRY_HI 

5e : 

42000002; 

% 

(178) 

tlbwi 


5f: 

42000018; 

% 

(17c) 

eret 



60: 

00000000; 

% 

(180) 

nop 




[61..6f] : 0 


# 0x800001f 8: counter 

# load itlb index counter 

# index + 1 

# 3-bit index 

# store index 

# itlb tag 

# itlb tag and index 

# move to cO index 

# move from cO context 

# get pte 

# move to cO entry_lo 

# get bad vpn 

# for cO entry_hi 

# move to entry 一 hi 

# update itlb 

# return from exception 

# 


# 0x800001fc : counter 

# load dtlb index counter 

# index + 1 

# 3-bit index 

# store index 

# dtlb tag 

# dtlb tag and index 

# move to cO index 

# move from cO context 

# get pte 

# move to cO entry 一 lo 

# get bad vpn 

# for cO entry 一 hi 




# update dtlb 


return from exception 


% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 


# 


% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 

% 


% init 


% 
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70: 40800000; % (IcO) mtcO rO, CO 一 INDEX # CO 一 INDEX < —一 0 (itlb[0]) % 

髻 

71: 3clb9000; % (lc4) lui r27, 0x9000 # page table base % 

72: 8f7a0000; % (lc8) lw r26 f 0x0(r27) # 1st entry of page table % 

73: 409al000; % (lcc) mtcO r26 f C0_ENTRY_LO # CO 一 ENTRY—LO <-- v,d,c,pfn % 

74: 3cla0000; % (ldO) lui r26 f 0x0 # va (=0) for CO 一 ENTRY 一 HI % 

75: 409a4800; % (ld4) mtcO r26 f CO 一 ENTRY 一 HI # CO—ENTRY 一 HI <~ vpn (0) % 

76: 42000002; % (ld8) tlbwi # write itlb for user prog % 

77: 409b2000; % (ldc) mtcO r21, CO 一 CONTEXT # CO 一 CONTEXT <-- PTEBase % 

78 : 341a003f; % (leO) ori r26, r0, 0x3f # enable exceptions % 

79: 409a6000; % (le4) mtcO r26, CO 一 STATUS # CO 一 STATUS <-- 0,.00111111 % 

7a: 3c010000; % (le8) lui rl f 0x0 # va = 0x0000 一 0000 % 

7b: 00200008; % (lec) jr rl # jump to user program % 

7c: 00000000; % (lfO) nop # % 

7d: 00000000; % (lf4) nop # % 

7e: 00000000; % (If8) .data 0 # itlb index counter % 

7f : 00000000; % (lfc) .data 0 # dtlb index counter % 

END ; 


页表，此处很小，实际很大。系统软件可以维护这个 页表： 

DEPTH = 128; % Memory depth and width are required % 

WIDTH = 32; % Enter a decimal number % 

ADDRESS—RADIX = HEX; % Address and value radixes are optional % 

DATA_RADIX = HEX; % Enter BIN, DEC, HEX, or OCT; unless % 

% otherwise specified, radixes = HEX % 

CONTENT 

BEGIN 

% physical address = 0x1000 一 0000 % 

% page table, va = 0x9000—0000 % 

0: 00820000; % (00) va: 0000 一 0000 —一 > pa: 20000000 ; 1 of 8: valid bit % 

1: 00820002; % (04) va: 0000^1000 一一 > pa: 20002000 ; 1 of 8: valid bit % 

2 : 00820001; % (08) va : 0000 一 2000 —一 > pa : 20001000 ; 1 of 8: valid bit % 

3 : 008200f0; % (0c) va : 0000 一 3000 --> pa : 200f0000 ; 1 of 8: valid bit % 

[4..7F] : 00000000; 

END ; 

IU / FPU 测试 程序： 

DEPTH = 128; % Memory depth and width are required % 

WIDTH = 32; % Enter a decimal number % 

ADDRESS_RADIX = HEX; % Address and value radixes are optional % 

DATA 一 RADIX = HEX; % Enter BIN, DEC, HEX, or OCT; unless % 

% otherwise specified, radixes = HEX % 

CONTENT 

BEGIN 

% physical address = 0x2000 一 0000 % 

0 : 20011100; % (20000000) addi rl,r0,0x1100 # address of data[0] % 

1 : C4200000; % (20000004) lwcl fO, 0x0(rl) # load fp data % 
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2 

• 

• 

C4210050 

? % (20000008) 

lwcl 

fl. 

0x50(rl) 

3 

• 

• 

C4220054 

; % (2000000C> 

lwcl 

f2. 

0x54(rl) 

4 

• 

• 

C4230058 

? % (20000010) 

lwcl 

f3. 

0x58(rl) 

5 

參 

• 

C424005C 

? % (20000014) 

lwcl 


0x5c(rl) 

6 

• 

• 

46002100 

; % (20000018) 

add. s 


f4, fO 

7 

• 

• 

460418C1 

; % (2000001C) 

sub. s 

f3, 

f3, f4 

8 

• 

• 

46022082 

: % (20000020) 

mul. s 

f2, 

f4 # f2 

9 

• 

• 

46040842 

? % (20000024) 

mul. s 

fl. 

fl # f4 

A 

• 

• 

E4210070 

; % (20000028) 

swcl 

fl, 

0x70(rl) 

B 

• 

• 

E4220074 

; % (2000002C) 

swcl 

f2. 

0x74(rl) 

C 

• 

參 

E4230078 

; % (20000030) 

swcl 

f3. 

0x78(rl) 

D 

• 

參 

E424007C 

? %(20000034) 

swcl 

f4, 

0x7c(rl) 

E 

參 

• 

20020004 

;%(20000038) 

addi 

r2, 

r0 f 4 

F 

蠢 

參 

C4230000 

; % (2000003C) 

13: lwcl f3, 0x0 (rl) 

10 

• 

參 

C4210050 

;%(20000040) 

lwcl 

fir 

0x50(rl) 

11 

• 

• 

46030840 

; % (20000044) 

add. s 

fir 

fl, f3 

12 

• 

參 

46030841 

; % (20000048) 

sub. s 

fl. 

fl, f3 

13 

眷 

• 

E4210030 

; % (2000004C) 

swcl 

fl, 

0x30 (rl) 

14 

參 

• 

C4051104 

? % (20000050) 

lwcl 

f5. 

0x1104 (rO) 

15 

• 

• 

C4061108 

; % (20000054) 

lwcl 

f6, 

0x1108 (rO) 

16 

• 

• 

C408110C 

; % (20000058) 

lwcl 

f8. 

0xll0c(r0) 

17 

• 

• 

460629C3 

; % (2000005C) 

div. s 

f7. 

f5 f f6 

18 

• 

• 

46004244 

; % (20000060) 

sqrt. 

s f9 

,f8 

19 

• 

• 

46004A84 

? % (20000064) 

sqrt. 

s fl0 f f9 

1A 

• 

參 

2042FFFF 

? % (20000068) 

addi 

r2 f 

r2, - 1 

IB 

拳 

• 

1440FFF3 

? % (2000006C) 

bne 

r2. 

r0 f 13 

1C 

• 

• 

20210004 

; % (20000070) 

addi 

rl. 

rl, 4 

ID 

參 

• 

3C010000 

? % (20000074) 

iu 一 test:lui 

rl f 0 

IE 

• 

• 

34241150 

? % (20000078) 

ori 

r4 f 

rl, 0x1150 

IF 

參 

參 

0C000038 

? % (2000007C) 

call : 

jal 

sum 

20 

• 

畚 

20050004 

? % (20000080) 

dslotl : 

addi r5,r0,4 

21 

• 

• 

ac820000 

? % (20000084) 

return : 

sw 

r2 f 0(r4) 

22 

• 

• 

8c890000 

; % (20000088) 

lw 

r9 f 

0 (r4) 

23 

• 

• 

01244022 

; % (2000008C> 

sub 

r8 # 

r9 f r4 

24 

• 

參 

20050003 

; % (20000090) 

addi 

r5 # 

r0 f 3 

25 

• 

• 

20a5ffff 

; % (20000094) 

loop2 : 

addi 

r5 f r5 f _1 

26 

參 

鲁 

34a8ffff 

; % (20000098) 

ori 

r8 # 

r5 f Oxffff 

27 

• 

• 

39085555 

; % (2000009C) 

xori 

r8. 

r8, 0x5555 

28 

• 

參 

2009ffff 

; % (200000A0) 

addi 

r9 # 

r0 f -1 

29 

• 

• 

312affff 

; % (200000A4) 

andi 

rl0 f 

r9,Oxffff 

2A 

• 

• 

01493025 

; % (200000A8) 

or 

r6, 

rl0 # r9 

2B 

• 

• 

01494026 

; % (200000AC) 

xor 

rS, 

rl0 f r9 

2C 

• 

• 

01463824 

; % (200000B0) 

and 

rl t 

rlO, r6 

2D 

• 

• 

10a00003 

; % (200000B4) 

beq 

r5 # 

rO, shift 

2E 

• 

• 

00000000 

; % (200000B8) 

dslot2 : 

nop 

2F 

參 

• 

08000025 

; % (200000BC) 

曹 

D 

loop2 

30 

• 

• 

00000000 

; % (200000C0) 

dslot3: 

nop 


# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

# 


# 

# 

# 

# 

# 

# 

# 

# 

# 

# 

* 

# 

* 



# 







# 

# 


load fp data % 
load fp data % 
load fp data % 
load fp data % 
f4 : stall 1 % 
f4 : stall 2 % 
mul % 
mul % 
fl: stall 1 % 
store fp data % 
store fp data % 
store fp data % 
counter % 
load fp data % 
load fp data % 
stall 1 % 
stall 2 % 
stall 1 . % 
load fp data % 
load fp data % 
load fp data % 
div % 
sqrt % 
sqrt • % 
counter - 1 % 
finish? % 
address+4, DELAY SLOT % 
address of data[0] % 
address of data[0] % 
call function % 
DELYED SLOT(DS) % 
store result % 
check sw % 
sub: r8 < —— r9 - r4 % 
counter % 
counter - 1 % 


zero-extend: OOOOffff % 
zero-extend: OOOOaaaa % 
sign - extend: ffffffff % 
zero-extend: OOOOffff % 


or: ffffffff % 
xor : ffff0000 % 
and: OOOOffff % 
if r5 = 0, goto shift % 
DS % 
jump loop2 % 
DS % 
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31 : 2005ffff; % (200000C4) shift: addi r5,r0, -1 # r5 = ffffffff 

32 : 000543c0; % (200000C8) sll r8, r5, 15 # « 15 = ffff8000 

33 : 00084400; % (200000CC) sll r8, r8, 16 # « 16 = 80000000 

34 : 00084403; % (200000D0) sra r8, r8, 16 # »> 16 = ffff8000 

35 : 00084c32; % (200000D4) srl r8 f r8 f 15 # » 15 = OOOlffff 

36 : 08000036; % (200000D8) finish: j finish # dead loop 

37 : 00000000; % (200000DC) dslot4: nop # DS 

38 : 00004020; % (200000E0) sum: add r8, rO, rO # sum 

39 : 8c890000; % (200000E4) loop: lw r9 f 0(r4) # load data 

3A : 01094020; % (200000E8) add r8 # r8, r9 # sum 

3B : 20a5ffff; % (200000EC) addi r5, r5, -1 # counter - 1 

3C : 14a0fffc; % (200000F0) bne r5, rO, loop # finish? 

3D : 20840004; % (200000F4) dslot5: addi r4,r4,4 # address + 4, DS 

3E : 03e00008; % (200000F8) jr r31 # return 

3F : 00081000; % (200000FC) dslot6 : sll r2,r8,0 # move res. to vO, DS 

[40..7F] : 0; 

END ; 

IU/FPU 测试数据： 

DEPTH = 128; % Memory depth and width are required % 

WIDTH = 32; % Enter a decimal number % 

ADDRESS 一 RADIX = HEX; % Address and value radixes are optional % 

DATA 一 RADIX = HEX; % Enter BIN, DEC, HEX, or OCT; unless % 

% otherwise specified, radixes = HEX % 

CONTENT 
BEGIN 

% physical address = 0x2000 一 2000 % 

[0..3F] : 0; % (20002000..200020FC) 0 % 

40 : BF800000; % (20002100) 1 01111111 00..0 fp -1 % 

41 : 40800000; % (20002104) % 

42 : 40000000; % (20002108) % 

43 : 41100000; % (2000210C) % 

[44..53] : 0; % (20002110..2000214C) 0 % 

54 : 40C00000; % (20002150) 0 10000001 10..0 data[0] 4.5% 

55 : 41C00000; % (20002154) 0 10000011 10..0 data[l] % 

56 : 43C00000; % (20002158) 0 10000111 10. .0 data[2] % 

57 : 47C00000; % (2000215C) 0 10001111 10..0 data[3] % 

[58..7F] : 0; % (20002160..200021FC) 0 % 

END ; 

图 13.10 〜图 13.12 是执行测试程序时的部分波形。复位后， CPU 从虚拟地址 
0x80000000 开始执行程序，主要工作是为用户程序初始化一个 ITLB 项。然后转去 
执行用户程序。当用户程序引起 DTLB 不命中异常时，转去执行异常处理程序，填 
充 DTLB 项，然后返回。为了看波形图方便，我们假设 Cache 不命中时需要 6 个周 
期访问存储器（实际不止 6 个周期)。 
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% 
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% 

% 

% 
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% 
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% 
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% 

% 

% 
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图 13.10 流水线 CPU 仿真波形图（复位后） 

图 13.10 中的 v_pc 是指令的虚拟地址， pc 是实际地址。这个区域的地址转换不 
经过 ITLB 。 由于是刚开始，指令 Cache —定是不命中。 
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图 13.11 流水线 CPU 仿真波形图（转用户程序) 


图 13.11 上半部分示出的是初始化完成后转去执行用户程序的波形。下半部分示 


出的是 lwcl 指令执行到 MEM 级时 DTLB 不命中而转去执行异常处理程序的波形 
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图 13.12 流水线 CPU 仿真波形图（从异常返回和指令 Cache 命中 ) 


图 13.12 上半部分是从异常处理返回时的波形。返回地址是0 x 00000004,即重 
新执行 Iwcl 指令 ( Cache 命中)。下半部分是指令 Cache 命中时的波形 o 
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13.6 习题 

1. 重新设计 CPU ， 使其能够处理外部中断和异常，包括系统调用、未实现的指 
令、带符号数结果溢出以及浮点结果异常等。 

2. 重新设计 CPU , 使用 EntryLoO 和 EntryLo 1 0 

3. 如何用软件实现各种 TLB 的替换策略？ 

4. 操作系统是如何管理页表的？ 



第 14 章多核 CPU 及其 Verilog HDL 设计 


• 本章介绍多核 CPU 的概念、结构、设计方法及 Cache —致性问题，并给出一个 
双核 CPU 的具体设计的 Verilog HDL 代码及仿真波形。 


14.1 多核 CPU 概述 

14.1.1 多核 CPU 的基本概念 

# 

随着半导体工艺技术的提高，在一个芯片内能集成越来越多的晶体管，并且 
CPU 的时钟频率也越来越快。但时钟频率不可能无限制地提高。我们知道，光在真 
空中的传播速度是 299 792458 m / s 。 电子信号的传播速度大约是光速的2/3,大约是 
200000 000 m / s 。 如果时钟频率是 4 GHz ， 则在一个时钟周期内，电子信号仅能前进5 
cm 。 因此信号的延迟也是不得不考虑的问题。 

如何充分有效地使用这些晶体管是 CPU 设计者面临的一个挑战。虽然超标担: 
( Superscalar ) 和超长指令字 (Very Long Instruction Word , VLIW ) 技术在不提高时钟频 

率的情况下能改善 CPU 的性能，但由于指令之间的相关性，性能的改进并不十分明 
显。多线程 （Multithreading) 技术也是改进 CPU 性能的有效方法，但由于复杂的执行 
部件被所有线程所共享，增加了电路的设计复杂性，线程数不可能很多。 

多核 (Multi-Core) 技术至少在目前的 CPU 设计中被广泛地使用。它的中心思想 
是在一个芯片内设计多个“核” （Core)。 图 14.1 示出了从单核到 16 核 CPU 的示意 
图。如果每个核具有相同的电路，则多核 CPU 的设计要比多线程简单。缺点是执行 
部件的利用率没有多线程高。 



(a) Single-Core CPU 


(c) Quad-Core CPU 



(d) Oct-Core CPU 



(e) Hex-Core CPU 



r 图 14.1 多核 CPU 

多核的名称由工业界提出。说穿了， 一 个核就是一个 CPU, 多核就是在芯片的 
级别上实现“多处理机” (Multiprocessors) 技术。比多核更早出现的名称是学术界提 
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出的 “ Chip - Multiprocessors ” 。工业界有时不愿原封小动地使用学术界提出的 名称。 
骨子里二者相同，然而你不得不承认 Multi - Core 读起来更简洁些。 

I 如果核的数最不是很多， 一 般都采用共享总线的结构。 I 图 14.2 示出了多核 CPU 
的两种常用的结构。两种结构中每个核都有各自的第一级指令 Cache 和数据 Cache 。 
图 14.2( a ) 是一种比较简单的结构，每个核都有各自的第二级 Cache ; 图 14.2( b ) 是整 
个 CPU 只有一个第二级 Cache ， 由所有核共享。不管是哪种结构，与外部的总线接 
口一般都只有一个。 



( a ) 多核 CPU : 独立的第二级 Cache 



( b ) 多核 CPU : 共亨的第二级 Cache 


m 14.2 两种不同结构的共亨总线多核 CPU 
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如果使用第三级 Cache ， 则第二级 Cache 往往为每个核专有。如果核的数董很 
多，往往需要互联开关把所有的核连接在一起，如图 14.3 所示。 



图 14.3 使用互联开关的多核 CPU 


图 14.3 中所有的核由 Mesh (—种拓扑结构）连接在一起，每个核可以有自己的 
第二级 Cache 。 当 Cache 不命中时，首先查看其他核的 Cache 中有没有一个备份。如 

果都没有，才去访问外面的存储器。一般地讲，所有传统意义上的小规模多处理机 
都可以集成在 一 个芯片内。 Multi-Core 还有另外 一 个名称： Many - Core 。 

14.1.2 多核 CPU 的 Cache 一致性问题 

多核 CPU 实际上就是一个小规模的多处理机。多处理机的一个显著特点就 
是共享存储器。而存在于多处理机中的一个著名的问题就是 Cache 一致性 (Cache 
Coherence ) 问题。表 14.1 示出的就是 Cache 一致性问题。假设在 tO 时，存储器 x 单 
元的内容为0 x 55555555。当 Core 1和 Core 2读取 x 单元时 （tl 和 t 2), 0 x 55555555 被 
分别存放在各自的 Cache 中。到这时为止，还没出现任何问题。但在 t 3 时， Corel 
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往 x 单元写入新的数据 Oxaaaaaaaa (假设使用写透策略、也修改了存储器)。此时在 
Core 2 Cache 中的 0 x 55555555 就是已经过时的数据了，即出现了所谓的 Cache 不一 
致的问题了。 


表 14.1 多核 CPU 的 Cache 一致性问题 


时间 

动作 

Core 1 Cache 的内容 

Core 2 Cache 的内容 

存储器 x 单元的内容 

to 




0 x 55555555 

tl 

Core 1 读 x 

0 x 55555555 


0 x 55555555 

t 2 

Core 2 读 x 

0 x 55555555 

0 x 55555555 

0 x 55555555 

t 3 

Core 1 写 x 


0 x 55555555 

Oxaaaaaaaa 


多处理机解决 Cache 不一致问题的方法有两种。在大规模的分布式共享存储 


器的多处理机系统中，往往采用基于目录的协议 ( Directory-Based Cache Coherence 
Protocol ) o [ fh 小规投的从 fvi 线的共乎忭姑器 iVj 心处理机系统屮， fHk 采⑴总线 ☆ 1 
视协议 ( Bus-Snooping Cache Coherence Protocol )。 总线监视协议的内涵正如它的名称 
所指出的那样， I 每个 Cache 控制器都要监视总线上的动作 j 当总线上有写动作发生 
时，检查自己的 Cache 是否有相同地址的 Cache 块。如果有，则或者把新的数据写 


入自己相应的 Cache 块 ( Update-Based Protocols ), 或者千脆把相应的 Cache 块置成无 
效 ( Invalidate-Based Protocols ) 0 


14.2 多核 CPU 设计 

14.2.1 多核 CPU 的总体结构 

我们的多核 CPU 没有实现 Cache — 致性协议，而且只有一级 Cache 。 图 14.4 是 
双核 CPU 的总体结构，共有4个 TLB 模块和4个 Cache 模块。 

图中的 Core 1模块以及 Core 2模块与第13章的 cpu _ cache_tlb 模块相同。关键部 
分是双核 CPU 与存储器之间的接口。当两个核同时要访问存储器时，必须要有电路 
解决双核之间的竞争。有了单核，多核 CPU 的设计变简单了。 


14.2.2 多核对外部总线的竞争与仲裁 


我们令 Core 丨和 Core 2有平等的机会访问存储器。为此，我们设置了一个一位 
计数器。当计数器的值为0时， Corel 优先； 当计数器的值为1时， Core 2优先。 

表 14.2 是产生 select 1信号的真值表。 selectl 为1时选择 Core 1;为0时选择 
Core 2。表中的 cnt 是一位计数器的输出； mem_accessl 和 mem _ access 2 分别是 Core 1 
和 Core 2的存储器访问请求，为1时表示有请求。由此，我们得到 select 1信号的逻 
辑表达式如下。 


selectl = "cnt & mem_accessl | cnt & **mem_access2 ; 
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阁 14.4 双核 CPU 的总体结构 


表 14.2 存储器访问仲裁 


cnt 

mem.accessl 

mem.access2 

selectl 

X 

0 

0 

X 

0 

0 

1 

0 

0 

1 

0 

1 

0 

1 

1 

1 

1 

0 

1 

0 

1 

1 

0 

1 

1 

1 

1 

0 


有了 select 1信号，我们就可以从两个核的两组存储器访问信号中选择一组（使 
用多路器)，送往存储器。同样我们也可以使用 selectl 信号把存储器已经准备好的信 
号送往其中的一个核(使用分配器)。需要注意的是计数器不能每个时钟周期都计数， 
而是应该在存储器访问期间停止计数。 

有没有办法给 Core 1更高的优先级来访问存储器呢？有。使用多于一位的计数 
器，并且按照你自己的喜好随便修改 selectl 的真值表。那如果不是双核而是四核或 
八核怎么办呢？也简单，用两位或三位的选择信号就行。 

14.2.3 多核 CPU 的 Verilog HDL 代码 

以下是双核 CPU 高层的 Verilog HDL 代码。低层的代码与第13章的相同。我们 
只把 Core 1的信号放在高层，供测试用。 
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module core2 一 cache 一 tlb 一 memory 

(clock,memclock,resetn,v_pci,pci,instl,ealul,malul ， walul f wnl f 

wdl f wwl,stall—lwl,stall—fpl,stall—lwcll,stall 一 swell,stalll f 
mem — a,mem 一 data,mem—st_data,mem 一 access,mem_write, mem_ready); 
input clock,memclock,resetn; 

output [31:0] v_pcl,pci,inst1,ealul,malul,walul; 
output [31:0] wdl; 
output [4:0] wnl; 

output wwl,stall—lwl,stall—fpl,stall—lwcll,stall 一 swell, stalll; 

output [31:0] mem_a; 

output [31:0] mem 一 data; 

output [31:0] mem 一 st 一 data; 

output mem 一 access; 

output mem 一 write; 

output mem—ready; 

// corel 

wire [31:0] mem 一 al; 
wire [31:0] mem 一 st 一 datal; 
wire mem_accessl; 

wire mem—writel; 

epu 一 cache 一 tlb corel 

(clock,memclock,resetn,v—pcl,pci,instl,ealul,malul,walul, 
wnl,wdl,wwl,stall—lwl,stall_fpl,stall—lwcll,stall 一 swell, 
stalll,mem 一 a1,mem 一 data,mem 一 st 一 datal,mem 一 access1, 
mem_writel f mem_readyl); 

// core2 

wire [31:0] v_pc2,pc2,inst2,ealu2,malu2, walu2; 
wire [31:0] wd2; 
wire [4:0] wn2; 

wire ww2, stall 」 w2, stall—fp2, stall 」 wcl2, stall 一 swcl2, stall2; 

wire [31:0] mem 一 a2; 

wire [31:0] mem—st_data2; 

wire mem 一 access2; 

wire mem 一 write2; 

epu 一 cache 一 tlb core2 

(clock,memclock,resetn,v_pc2,pc2,inst2, ealu2, malu2,walu2, 
wn2,wd2,ww2,stall_lw2,stall_fp2,stall_lwcl2,stall_swcl2, 
stall2,mem_a2,mem—data,mem_st — data2,mem 一 access2, 
mem 一 write2,mem—ready2); 

// mux 

reg ent; 

always @(negedge resetn or posedge clock) begin 

if (resetn == 0) begin 

ent <= 0; 

鬌 

end else if (mem 一 ready) begin 
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cnt <= ~cnt; 

end 

end 

wire selectl = ~cnt & mem 一 accessl I cnt & ~mem—access2; 
wire [31:0] mem 一 a = selectl? mem 一 al : mem 一 a2; 

wire [31:0] mem_st—data = selectl? mem 一 st_datal : mem_st_data2; 

wire mem—access = selectl? mem 一 accessl : mem 一 access2; 

wire mem write = selectl? mem writel : mem_write2; 

// demux 

wire mem—readyl = mem 一 ready & selectl; 
wire mem 一 ready2 = mem 一 ready & ~selectl; 

// main memory 

physical—memory mem (mem — a,mem 一 data,mem—st 一 data,mem 一 access, 

mem 一 write,mem 一 ready,clock,memclock,resetn); 

endmodule 
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多核 CPU 的测试程序及仿真波形 


我们使用与第13章相同的测试程序，两个核都执行它。仿真波形见图 14.5 〜 
图14.14。图中只给出了 Corel 和与存储器访问有关的信号的波形。请读者参阅第13 
章的测试程序来理解波形的意义。 
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14.5 双核 CPU 仿真波形阁 （ 1) 
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图 14.6 双核 CPU 仿真波形阉 （ 2) 
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图 14.7 双核 CPU 仿真波形图 （ 3) 
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阁 14.9 双核 CPU 仿真波形图 （5) 
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图 14.10 双核 CPU 仿真波形图 （ 6) 
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图 14.11 双核 CPU 仿真波形图 （ 7) 
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图 14.12 双核 CPU 仿真波形图 （ 8) 
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图 14.13 双核 CPU 仿真波形图 （ 9) 
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图 14.14 双核 CPU 仿真波形图 （10) 


14.4 >J@ 


1. 设计一个双核 CPU 的存储器访问仲裁电路，使 Core 1有比 Core 2更高的优先 
级，比如5 : 3。 

2. 设计一个只有一级 Cache 的四核 CPU 。 

3. 设计一个带有第二级 Cache 的双核 CPU (第二级 Cache 共享)。 

4. 参考第11章，设计一个双核双线程的 CPU ， 即 CPU 芯片中有两个核，而每个 
核又是一个双线程的 CPU 。 












第 15 章输入/输出接口及设计 


本章首先介绍 I / O 接口所涉及的相关技术，然后介绍数据错误的检测及纠正方 
法，最后介绍几种常用的 I / O 接口和 I / O 总线，包括异步通信接口 UART 、 PS /2 键 
盘、 PS /2 鼠标、视频图像阵列 VGA 、 I 2 C 总线和 PCI 总线。 

15.1 1/0接口概述 

I / O 接口连接 CPU 与1/0设备，实现二者之间的数据传送。与存储器不同， I/O 
设备的速度各种各样。为了能够安全准确地实现 I / O 数据的传送，计算机系统中往往 
使用专门的总线。另外，为了节省 CPU 时间及加快数据传送速度， CPU 中都有中断 
及直接存储器访问 ( DMA ) 机制。 


15.1.1 I / O 地址空间和1/0指令 

依 CPU 不同， I / O 空间有两种不同的实现方法。一种是设置专门的 I / O 空间， 
与存储器空间并列。访问 I / O 时，使用专门的 I / O 指令，比如 X86 的 in 和 out 指令。 
另一种是存储器映像的 I/O (Memory Mapped I / O )。这种方式是在虚拟存储器空间中 
指定一段区域，专门用作 I / O 地址使用。同存储器访问一样， I / O 访问也是使用 Load 
和 Store 指令，比如 MIPS 。 图 15.1 示出了这两种 I / O 空间的结构。 



(a) 分开的 存储器 空间和 I/O 空间 （ b) 存储器映象的 I/O 空间 


图 15.1 I / O 空间的实现方法 

15.1.2 I / O 査询和中断 

对 I / O 设备的访问可以通过查询 ( Polling ) 的方法进行。 CPU 从 I / O 状态寄存器 
读取 I / O 状态，判断 I / O 是否已经准备好。如果还没准备好，继续查询。如果已经准 
备好， CPU 可以对 I / O 数据进行读写操作，见图 15.2( a )。 

杳询方式浪费大量的 CPU 时间。为此，在实际的 CPU 设计中，基本上都使用 
中断 （ Interrupt ) 方式，见图 15.2( b )。 当1/0准备好时，由 I / O 接口发出一个中断请求 
信号给 CPU 。 CPU 收到这个请求信号后，停止当前程序的运行，转到中断处理程序 
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(a) I/O 査询 （ b) I/O 中断 


图 15.2 I / O 查询和 I / O 中断 

去处理 I / O 。处理完毕后，返回到被中断的地方继续执行。我们已经在第6章描述了 
单周期 CPU 处理中断和异常的方法，在第8章描述了精确中断的实现方法。 

15.1.3 直接存储器访问 DMA 

CPU 与 I / O 设备之间的数据传送可以通过执行指令的方法完成。但是，当有大 
量的数据需要传送时，比如从硬盘把数据读到存储器，这种方法需要花费大量的时 
间。 CPU 的特长是计算，像这种简单的操作可以不用执行指令，完全由硬件负责。 
这就是所谓的直接存储器访问 (Direct Memory Access )。 负责这项工作的硬件称为 
DMAC (DMA Controller ), 即 DMA 控制器，如图 15.3 所示。 



图 15.3 直接存储器访问 

为了使 DMAC 能正常 T ： 作， CPU 首先要对它初始化，告诉它从哪里传到哪里以 
及要传多少个字节。然后， DMAC 向 CPU 发出总线请求。 CPU 收到总线请求后，释 
放对总线的控制（把向总线输出的信号浮空）并发送响应信号给 DMAC 。 然后总线由 
DMAC 控制，通过硬件时序完成数据的传送。 
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15.1.4 总线和总线的同步方式 


当 I / O 设备的速度比较快且总是能以一定的速度提供或接收数据时， CPU 与 I/O 
设备之间的数据传送可以用同步 （ Synchronous) 方式进行，见图 15.4(a )。 时钟信号 
CLK 是数据传送的基准信号。 CPU 在时钟上升沿发出读写信号 R / W ， 写操作时也 
送出数据。读操作时用时钟上升沿对数据采样。同步方式的优点是速度快且电路简 
单，缺点是 CPU 与 I / O 设备之间的距离不能太长。 


CLK 
DATA 





(a) 同步传送 




(b ) 异步传送 


图 15.4 数据传送方式 

当 I/O 设备的速度比较慢或距离比较远时，往往采用如图 15.4(b) 所示的异步 
(Asynchronous) 方式。在异步方式中没有时钟信号，数据传送的双方用握手信号实现 
同步，比如图中的准备好信号 RDY 。 

15.2 数据错误检测及校正 

数据在传输过程中或在存储器存放中可能会由于种种原因出现错误。本节介绍 
两种检测错误的算法(奇偶校验和循环冗余校验）和一种纠正一位错误的算法（扩展的 
海明码)。 

15.2.1 奇偶校验 

奇偶校验是为数据加 1 位校验位。数据一般是 8 位，加完校验位后变 9 位。奇 
偶校验分为奇校验和偶校验。假设我们用 d 7 •••(!() 表示8位数据，用 p 。 和 p e 分别表 
示奇校验位和偶校验位，则有 


p 0 = d7 ㊉4㊉ 屯 ㊉ 山 ㊉ d3 © d2 ㊉ 山 © do 


p e = 山 ㊉ 4 ㊉ ds © dj ㊉ d3 ㊉ d2 ㊉ d! ㊉ do 

即给 8 位任意的数据附加一位 1 或0,使得奇校验时9位数据中为1的位数是 奇数； 
使得偶校验时9位数据中为1的位数是偶数 3 岀错的意思是本来应该为1 (或0)，结 
果却变成了 0( 或1)。如果数据中出现错误的位数是偶-位@话，不管是奇校验还是 
偶校验，都查不出来。以两位错为例，因为 d, ㊉ dj =玉 ㊉ 可，所以査不出来。 

换句话说，就是奇偶校验只能检测岀有奇数位出错，而不能检测出有偶数位出 
错。奇偶校验能有效地工作的前提是出现一位错的概率远大于出现两位错的概率。 
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校验时，计算 

C8 = d 15 ㊉ 山 4㊉ 山 3㊉ 山 2㊉ dii ㊉ dio ㊉㊉ P8 

C 4 = 山 5㊉ 山 4㊉ 山 3 © di 2 ㊉ d7 ㊉ d6 © d5 ㊉ P4 

C2 — di 5 ㊉ di 4 ㊉ dii ㊉ dio © CI7 © 4 ㊉ 山 ㊉ P2 

cj = di5 ㊉ di 3 ㊉ dn ㊉ d 9 ㊉ 山 ㊉ d 5 ㊉ d 3 ㊉ pi . 

如果没有出错，则 c = C8C4C2C, = 0000，这是因为 p ㊉ p = 0。如果有一位出 
错，则 c 指出出错位的位置。例如 d 13 出错， c = 1101 ,这是因为 d 13 出现在计算 
P8 、 P4 * P1 的式子中。我们只要把 d 13 取反，错误就被纠正过来了。 

以上就是基本的海明码所能完成的任务。如果有两位出错了会出现什么情况 
呢？我们还是举例来看。假设 d 9 和 d 7 两位错了。由于 d 9 出现在计算 p 8 和仍的式 
子中， d7 出现在计算 P4 、 P2 和 P1 的式子中，会导致校验时计算出的 C = 1110 ， 
即 ，1001 ©0111 = 1110 ,指出山 4 出错。如果把 d 14 取反，非但没把错误位纠正过 
来，反而把好端端的一位正确位给糟蹋了。 

怎么办？答案是使用扩展的海明码。扩展的海明码 （Extended Hamming Code ) 是 
在海明码的基础上再加一位校验位 po , 校验时再计算 Co : 


虽然一位错奇偶校验能检测出来，但不能修复，因为并不知道是哪一位出了 

错。硬盘阵列 RAID (Redundant Arrays of Inexpensive/Independent Desks) 也用奇偶校 

廢。 当有一个硬盘坏了，存于该硬盘的数据能由其他硬盘的数据计算出来。这是因 
为你已经知道了哪个硬盘坏了，这点和一位数据被搞反了不一样。 

15.2.2 错误纠正码 ECC ( 扩展的海 明码） 

奇偶校验太简单了。我们希望当冇一位错误时，不但能检测出来，而且能够知 
道是哪一位出的错。这样我们对出错的那一位取反，不就纠正过来了吗？这样的代 
码称做错误纠正码 ECC (Error Correcting Code )。 

为达此目的，我们使用多位校验位，每位校验位只对部分数据位进行校验。我 
们希望当岀现一位错误时(包括数据位和校验位)，通过计算，能知道出错的位置。海 
明码 (Hamming Code) 就是干这个用的。以下我们通过一个具体的例子说明海明码是 
如何工作的。假设有4位校验位，11位数据位。我们把它们排 排队： 

di5 山 4 d|3 d|2 dn dio d9 P8 山 4 CI 5 p4 CI 3 p2 Pi 

其中 Pi 是校验位，并且 i = 2 k ，0 ^ k ^ 3； dj 是数据位。 4 位校验位的产生方法如 
下 ： Pi = ㊉ { dj } I j i = i 。 即 


9 5 3 3 

d d d d 


㊉ 

o 


㊉㊉㊉ 


1 6 6 5 
d d d d 

© ㊉㊉ © 



7 7 


d d d d 
㊉ © ㊉ © 


2 


n n n 
d d d 

㊉㊉㊉ ㊉ 

3 3 n 1 

n n n n 
d d d d 

㊉ © ㊉㊉ 

4 4 4 3 

1 fll 1 n 
d d d d 

㊉ ㊉㊉㊉ 

5 5 5 5 

n n n 
d d d d 


8 4 2 

p p p 
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Po = d!5 ㊉ di4 ㊉ di3 ㊉ di2 ㊉ 山 1㊉ 山 0㊉ d9 © P8 ㊉ 山 ㊉㊉ d5 ㊉ P4 ㊉ d3 ㊉ P2 ㊉ pi 
Co = di5 ㊉ di4 ㊉ di3 ㊉ di 2 ㊉ di 1 ㊉ dio ㊉ d9 ㊉ P8 ㊉ d7 ㊉ d6 © d5 ㊉ P4 ㊉ 由 ㊉ P2 ㊉ Pi ㊉ Po 


这样，如果还是有两位错 ， c # 0但 Co = 0。这时只报告，不纠正。如果只有 
一 位错 ， c # 0且 Co # 0,纠正。如果有更多位出错会是怎样的情形呢？请读者自 
己思考。有人把扩展的海明码称做“单纠错双检错”码，从概率的角度考虑大概是对 
的，但其实不是完全准确的。想想为什么。有了以上公式，写出它们的 VerilogHDL 
代码很容易，这里就不再给出了。 

15.23 循环冗余校验 CRC 


循环冗余校验 CRC (Cyclic Redundancy Check ) 通常在通信时被用来检查数据是 
否在传输过程中出错。 CRC 码用模2的除法产生。设数据有 m 位，它的绝对值为 
M 。 又设有一个 d 位的除数，它的绝对值为 D 。 发送方把 M 左移 d_l 位再除以 D , 
得到 d — 1位余数 R 。 即 


MX 2 d ^ 1 = Q x D + R 

其中 Q 为商。注意这里的模 2 除法运算是用异或代替减法。加法也是异或。 

发送方把 M 和 R 拼接在一起，即 N = M X 2 d -' + R , 送给接收方。接收方把 
N 除以 D 。 如果没有出错，余数应为0。为什么呢？理由 如下： 

MX 2 d ^ 1 + R = QxD + R + R = QxD + 0 
由于是异或运算 ， R + R = 0。 表 15.1 给出一个例子，其中 D = 1011， R = 110o 

表 15.1 CRC 计算举例 


发送方 

接收方 


余数高位 

R 


余数高位 

R 

M 

110001011111 

000 

M 

1 1 000 1 0 1 1 1 1 1 

■KEH 

㊉ 

10 11 


㊉ 

10 11 


— 

011101011111 

000 

— 

011101011111 

110 

㊉ 

0 10 11 


㊉ 

0 10 11 



001011011111 

000 


001011011111 

110 

㊉ 

001011 


㊉ 

001011 



0000000 1 1 1 1 1 

000 

— 

0000000 1 1 1 1 1 


㊉ 

00000001011 


㊉ 

00000001011 


— 

00000000 1 00 1 

000 

— 

000000001001 

110 

㊉ 

000000001011 


㊉ 

000000001011 



000000000010 

000 

— 

000000000010 

dedh 

㊉ 

000000000010 

11 

© 

000000000010 

11 

= 

000000000000 


= 

000000000000 

000 
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异或操作是把余数中对应于除数位是1的那些位取反。表中的计算跳过了余数 
高位的很多0,直接移到高位是1的地方进行异或。由于除数的最高位是1，异或后 
相应位的余軟就变成了 0。即，余数高位若是0,跳过(移 位)； 若是1，异或。 

我们知道， x ©0 = x 、 x ㊉ 1 = L 相当于每位都做异或操作，只是余数高位是 
0时，异或上全0;是1时，异或上除数。因此我们有图 15.5 所示的电路。图中有三 
个 D 触发器保存余数。本例中除数 （1011) 有3位丨，但高位异或要么是1 ㊉ 1 = 0, 
要么就是0©0 = 0,总之结果是0,没必要运算，因此只需要两个异或门。该电路 
与用加法器和异或门做减法的电路有异曲同工之处，读者不妨比较一番。 


D = x 3 + x 1 + 1 



- - - 1 1 

1 

[ 0 ° 
— 1 ^ 7 ^ ° 0 

图 15.5 


0 0 0 1 



0 1 1 



1 1 



1 1 

% 

0 1 


10 0 0 0 1 1 

1 10 0 0 0 1 


由 X 3 + X 1 + 1 产生 R 的电路 



实际上最后的 d — 1次异或运算不需要，直接把 R = 010送出。接收方做同样 
的运算，比较计算出的余数是否与接收到的余数相等，以判断数据在传输过程中是 
否出错。常用的 CRC 生成多项式（相应的系数构成除数）列于表 15.2 中。 


表 15.2 常用的 CRC 生成多项式 


CRC-12 x 12 +x"+x 3 +x 2 +x+l | 

CRC-16-CCITT x 16 +x 12 +x 5 +l 

CRC-16-IBM x 16 +x 15 +x 2 +l | 

CRC-64-ISO x M +x 4 +x 3 +x+1 


CRC-32-IEEE x 32 +x 26 +x 23 +x 22 +x 16 +x 12 +x n +x 10 +x 8 +x 7 +x 5 +x 4 +x 2 +x+l 


15.3 异步通信接口 UART 


异步通信接口 UART (Universal Asynchronous Receiver Transmitter ) 能够发送和接 

收串行数据。异步的意思是通信的双方之间没有用于同步的时钟信号线。假设以字 
符为单位发送和接收串行数据，字符与字符之间要有明显的标志把两个字符区分开 
来。异步通信接口的数据帧 （Data Frame ) 格式如图 15.6 所示。 

一个 数据侦 包含有一位起始 （ Start) 位， 5 至 8 位数据位， 1 位奇偶校验 ( Parity) 
位（可有可无）和 1 至 2 位停止 （ Stop) 位。起始位为低电平，停止位为高电平，数据 

按最低位 LSB (Least Significant Bit ) 到最高位 MSB (Most Significant Bit ) 的次序送出 
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LSB MSB _ 

stop] start I dp I d) I d 2 1 d 3 I cli 1 d s I d6 I d 7 |parity| stop | start | dp | 

Data frame 

m ■■ . _ 


图 15.6 异步通信接口的数据帧格式 


或到达。图中及以下的 VerilogHDL 代码假定数据有8位、偶校验。图 15.7 示出的是 
UART 的信号及连接方式，将在后续的描述中给出各信号的意义。 


发送方 

接收方 


UART UART 



〉发送方 
1 接收方 


阁 15.7 异步通倍接口的信号及连接方式 


实现异步通信的双方必须事先约定好所谓的波特率 (Baud Rate ) ,即每秒传送 
的二进制位数，包含起始位、校验位和停止位。常用的波特率有4800、9600和 
19200。由于没有时钟信号，接收方的电路必须要检测起始位，然后按波特率来采样 
剩余的数据。 


Cntl6x 0 1 23456789ABCDEF0 1 2 3 4 56789ABCDEF0 1 2 3 4 5 6 


dki6x nnrirLJUirLJinjmiwumjiJiruuirLJinjinjmnjmJuiJinjinnrL 
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rxd-old 

clklx 
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•—I 
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sampling 






: 


图 15.8 异步通信接口的接收时序 

图 15.8 示出的是检测起始位时的波形。我们使用一个内部时钟信号 clkl 6 x , 它 
的频率被设定为波特率的16倍。一个4位的计数器用来对 clkl 6 x 分频，产生采样脉 
冲。接收数据线 rxd 上的起始位可以出现在任何时刻。我们用 clkl 6 x 来检测它的下 
降沿。在 clkl 6 x 的 t 升沿处，两个信号 rxd _ old 和 rxd . new 分别用来保存 rxd _ new 和 
rxd (需要两个 DFF )。 因此，当 rxd _ old 为高电平且 rxd _ new 为低电平时，我们知道起 
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始位已经到来。然后令采样的使能信号 sampling 为1,并在起始位的中间的位置产生 
采样脉冲 clklxo 采样脉冲高电平的时间长度等于 clkl 6 x 时钟的一个周期。 

为了能够知道在何时已经接收到一个完整的数据帧，我们必须要有一个计数器 
来记录已经接收了多少位，如图 15.9 所示。计数器命名为 no _ bits _ rcvd 。 

ncd —1 start | dp | 山 | d 2 | d 3 | 山 | d 5 | 4 | d 7 | parity | stop | start | 

sampling | 1 | 

cikix _ nnnnnnnn nnnn 


no.bitsj-cvd 


0 12 3 



neady 

rdn 


n 

~u 


图 15.9 异步通信接口接收一个数据帧 

当接收器开始采样时，计数器开始计数。计数器的值为1时，表示已经接收到 
了起 始位； 计数器的值为 11( 图中十六进制的 B ) 时，表示已经接收到了停止位。这 
时要把采样使能信号 sampling 置为0。 

我们的接收器允许接收连续的数据帧。如果接收到的一帧数据没被及时读走， 
新来的数据有可能冲掉原来的数据。为了不使已经接收到的数据丢失，我们使用了 
双缓冲器 r _ buffer 和 frame 。 r _ buffer 用于接收 rxd ， frame 用于保存已经接收到的8位 
数据。当 r _ ready 信号为1时，接收方可以使用 rdn (低电平有效的读信号)从 frame 中 
读取8位数据。当然，如果一直不读走，再多的缓冲器也不够用。接收器也检査校 
验位，如果出错，把 parity - error 置1;如果没有接收到停止位，把 frame _ error 置1。 


Cntl6x 0 1 23456789ABCDEF0 1 23456789ABCDEF0 1 2 3 4 5 6 

dki 6 x anrmiuumnnjumjuinnnjmjmjmiwinnjWLTLnjuuinjL 
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图 15.10 异步通信接口的发送时序 

UART 是“全双工” ( Full - Duplex ) 的，即接收和发送可以同时进行。发送时序如 
图 15.10 所示。为了能够实现数据帧的连续发送，我们在发送器中也设置了双缓冲 
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器： 发送方使用 wm (低电平有效的写信号）把 d 」 n 写人 d _ bufiFer , 然后把 d _ bufifer 写 
人 t_buffer (供发送用)。 t _ empty 信号为1时，表示发送方可以向 ( Lbuffer 写入新的数 
据，尽管前一个数据的发送还没有结束。与接收器不同，发送器的 clklx 时钟信号只 
是对 clkl 6 x 的简单的分频。 sending 是发送使能信号。 

同样，我们也为发送方设置一个计数器 n 0 _ bits _ sen t , 用来控制何时送出校验位 
和停止位，如图 15.11 所示。由于有了双缓冲器，发送器可以不间断地发送数据帧。 

sending J [J 

cikix _n_rn_rn_n_rn_r"LJ _ L_ri_r _ Lj _ i_n_j _ i_ 

no.bits.sent o|i|2|3|4|5|6|7|8|9|a|b|o|i 
txd start dp j di I d 2 I d 3 j cU I d 5 I d6 d 7 I parity! stop start 


ra i 5. il 异步通信接口发送一个数据帧 


以下是 UART 的 VerilogHDL 代码。注意，为了测试 UART 的工作状态，我们 
把一些重要的内部信号也拉到了外面。实际的输入输出信号见图15.7。 


module uart 


input 

// for 

input 

input 

output 

output 

output 

output 

// for 

input 

output 

output 

input 

// for 

output 

output 

output 

output 

output 

output 

output 

output 


(clkl6x f clrn f 

rdn, d 一 out, r—ready, rxd, parity—error, frame—error, 
wrn, d—in, t_empty f txd, cntl6x, 

no — bits—revd, r—buffer, r_clklx, sampling, frame, 
no 一 bits 一 sent, t—buffer, t—clklx, sending, d 一 buffer); 
clkl6x, clrn; 
receiver 
rdn; 
rxd; 

r 一 ready; 

[7:0] d_out; 

parity 一 error; 

frame—error; 

transmitter 

wrn; 

txd; 

t—empty; 

[7:0] d_in; 

test (internal signals) 

[3:0] ent16x; 
sampling; 
r 一 clklx; 

[3:0] no 一 bits—revd; 

[10:0] r—buffer; 

[7:0] frame; 

sending; 

clklx; 
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output [3:0] no 一 bits 一 sent; 
output [7:0] t — buffer; 
output [7:0] d_buffer; 

// clkl6x counter 
reg [3:0] cntl6x; 

always @ (posedge clkl6x or negedge clrn) begin 

if (clrn == 0) begin 

cnt16x <= 4 f bOOOO; 
end else begin 

cntl6x <= cntl6x + 4 f bOOOl; 

end 

end 

uart 一 rx r (clkl6x,clrn,rdn,d_out,r 一 ready,rxd,parity 一 error, 

frame—error,cntl6x,frame,no 一 bits—rcvd, 
r 一 buffer,r 一 clklx,sampling); 
uart_tx t (clkl6x f clrn / wrn, d_in f t—empty,txd,cntl6x, 

no_bits 一 sent,t 一 buffer,t 一 clklx,sending,d 一 buffer 〉 ； 

endmodule 
// receiver 

module uart—rx (clkl6x, clrn, rdn,d—out,r—ready,rxd,parity 一 error, 

frame_error,cntl6x,frame,no_bits_rcvd, 
r—buffer,clklx,sampling); 
input clkl6x,clrn; 
input rdn; 
input rxd; 
output reg r—ready; 
output [7:0] d__out; 
output reg parity 一 error; 
output reg frame 一 error; 
input [3:0] cntl6x; 

// for test 

output [3:0] no 一 bits_rcvd; 
output [10:0] r 一 buffer; 
output [7:0] frame; 
output clklx; 
output sampling; 

// internal signals 
reg [3:0] sampling 一 place; 
reg [3:0] no_bits_rcvd; 

reg [10:0] r 一 buffer; // stop,parity,data[7:0],start 
reg clklx; 

reg rxd 一 old,rxd 一 new; 
reg sampling; 
reg [7:0] frame; 
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// latch 2 sampling bits 

always @ (posedge clkl6x or negedge clrn) begin 

if (clrn == 0) begin 

♦ 

rxd—old <= 1 f b1; 
rxd—new <= 1 f b1; 
end else begin 

rxd old <= rxd new; 
rxd_new <= rxd; 

end 

end 

// detect start bit 

always @ (posedge clkl6x or negedge clrn) begin 

if (clrn == 0) begin 

sampling <= bO; 
end else begin 

if (rxd 一 old && !rxd 一 new) begin 

if (!sampling) 

sampling 一 place <= cntl6x + 4 f blOOO; 
sampling <= 1 f bl; 
end else begin 

if (no 一 bits—rcvd == 4 f blOll) 

sampling <= l f bO; 

end 

end 

end 

// sampling clock : clklx 

always @ (posedge clkl6x or negedge clrn) begin 

if (clrn == 0) begin 

clklx <= l 7 b0; 
end else begin 

if (sampling) begin 

if (cntl6x == sampling_place) 

clklx <= l f bl; 

if (cntl6x == sampling_place + 4 f bOOOl) 

clklx <= l f b0; 
end else clklx <= 1 f bO; 

end 

end 

// number of bits received 

always @ (posedge clklx or negedge sampling) begin 

if (!sampling) begin 

no bits rcvd <= 4 r bOOOO; 
end else begin 

no bits rcvd <= no bits rcvd + 4 9 bOOOl; 
r—buffer[no 一 bits—rcvd] <= rxd; 
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end 

end 

// one frame, rdn clears ready 

always @ (posedge clkl6x or negedge clrn or negedge rdn) begin 

if (clrn == 0) begin 

r_ready <= 1 f bO; 
parity—error <= l f bO; 
frame 一 error <= l f bO; 
end else begin 

if (!rdn) begin 

r_ready <= l 9 bO; 
parity 一 error <= ]/b0; 
frame—error <= l f bO; 
end else begin 

if (no 一 bits_rcvd == 4'blOll) begin 

frame <= r 一 buffer[8:1 ]; 
r 一 ready <= l f bl; 
if rr—buffer[9:1] ) begin 
parity—error <= l f bl; 

end 

if (!r 一 buffer[10]) begin 

frame_error <= 1 f bl; 

end 

end 

end 

end 

end 

assign d 一 out = !rdn ? frame : 8<bz ; 
endmodule 

// transmitter 

module uart—tx (elk16x,clrn,wrn, d—in, t—empty,txd,cntl6x, 

no 一 bits_sent,t 一 buffer,clklx,sending, d 一 buffer>; 
input clkl6x f clrn; 
input wrn; 
output reg txd; 
output reg t—empty; 
input [7:0] d 一 in; 
input [3:0] cntl6x; 

// for test 

output [3:0] no 一 bits_sent; 
output [7:0] t 一 buffer; 
output clklx; 
output sending; 
output [7:0] d—buffer; 
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// internal signals 
reg [3:0] no_bits_sent; 
reg [7:0] t 一 buffer; 
reg sending; 
reg [7:0] d_buffer; 
reg load_t—buffer; 

// load d 一 in, sending enable, t 一 empty, sending_place 
always @ (posedge clkl6x or negedge clrn or negedge wrn) 

if (clrn == 0) begin 

sending <= 1^0; 
t—empty <= l f bl; 
load 一 t 一 buffer <= l/bO; 
end else begin 

if (!wrn) begin // only happend in t—empty == l r 

d— buffer <= d—in; 
t 一 empty <= l f bO; 
load—t — buffer <= l f bl; 
end else begin 

if (!sending) begin 

if (load_t — buffer) begin 

sending <= 1 f bl; 
t 一 buffer <= d buffer; 
t 一 empty <= l f bl; 
load 一 buffer <= l f b0; 

end 

end else begin 

if (no 一 bits—sent == 4 f blOll) 

sending <= l f b0; 

end 

end 

end 

end 

assign clklx = cntl6x[3]; 

// number of bits sent 

always @ (posedge clklx or negedge sending) begin 

if (!sending) begin 

no—bits—sent <= 4 f bOOOO; 
txd <= 1/bl; 
end else begin 

case (no—bits—sent) 

0: txd <= l f bO; // start bit 
1: txd <= t—buffer[0]; 

2 : txd <= t 一 buffer[1]; 

3 : txd <= t—buffer[2]; 

4 : txd <= t—buffer[3]; 


begin 


bl; 
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5: txd <= t_buffer[4]; 

6: txd <= t_buffer[5]; 

7 : txd <= t 一 buffer[6]; 

8 : txd <= t_buffer[7]; 

9 : txd <= 一 buffer; // parity bit 
default : txd <= l f bl; // stop bit(s) 
endcase 

no—bits 一 sent <= no—bits—sent + 4^0001; 

end 

end 

endmodule 


Gt db/uart.sim.cvwf 
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15.12 UART 仿真波形 （ 1) 
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图 15.13 UART 仿真波形 (2) 

图 15.12 和图 15.13 示出了 UART 的仿真波形。图中的两个计数器 no _ bits_rcvd 
和 no _ bit S _ S ent 的值 A 的右面还有一个 B ， 由于时间太短没能显示出来。图 15.12 接 
收和发送的数据都是 E 1。 图 15.13 接收和发送的数据都是55。图 15.13 中我们故意 
把 rxd 的格式搞错，用以检查 parity _error 和 frame .error 两个信号。 

15.4 PS /2 接口 

PS /2 是个人计算机串行 I / O 端口的一种标准，名称的由来是因为它在 IBM PS /2 
(Personal System /2) 机器上首次使用，连接 PS /2 键盘和 PS /2 鼠标。 PS /2 端口的连接 
器的名称是 Mini - DIN ， 它有6个针/孔（一边是针、一边是孔)，其中的两个未被使 
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用，其余4个分别是时钟、数据、 VCC 和 GND 。 有些计算机或 FPGA 板只有一个连 
接器，但把两个未被使用的孔用来提供第二套的时钟和数据。这样，在外面使用一 
个 Y 形的分叉器，就能同时连接键盘和鼠标了。 

15.4.1 PS /2 键盘 


当你按下一个一般的键，键盘侧送出相应键的扫 描码； 松开时，送出 F 0 接着又 
是扫描码。前者称为 Make Code ， 后者称为 Break Code 。 不一般的键，也称扩展键， 
在二者最前面又加上 E 0。 

比如，如果你按下“ L ”键再放开，则送出 4 B FO 4 B (扫描码是 4 B )。 

再比如，如果你按下 “ Delete ” 键再放幵，则送出 E 0 71 EO F 0 71 (扩展键)。 

如果你长时间按下 “ L ” 键再放开，则送出 4 B 4 B … 4 B FO 4 B 。 

多个键可以同时被按下，比如先按左 “ Shift ” （扫描码为12)、再按 “ L ”、 放开 
“ L ”、 再放开 “ Shift ”， 则送岀 124 BF 04 BF 0 12。 

以上的数字均是十六进制的。键盘送给主机的数据以字节为单位。发送时以串 
行方式进行，与 UART 的格式类似，但有同步的时钟信号，另外规定使用奇校验。 
时序见图 15.14, 时钟高电平时键盘开始送数据，时钟低电平时主机开始读数据。 


ps2-dk 


ps2 .data 


start do 

d] d2 d3 (I4 (I5 

d6 

d 7 


parity stop 


图 15.14 PS/2 键盘送数据给主机的时序图 

以下的代码只负责接收由键盘送来的数据，到底是什么键交由软件处理。我们 
专门预备了一个8字节的缓冲区，以防数据丢失。首先检测时钟的下降沿，然后开 
始逐位接收数据并放入缓冲区。缓冲区实际上是一个先进先出的队列，配备有写指 
针和读指针。当队列不空时，送出 ready 信号； 当队列溢出时，送出 overflow 信号。 


module ps2 一 keyboard (elk, clrn, ps2—elk, ps2—data, 

rdn, data, ready, overflow, count); 
input elk, clrn, ps2 一 elk, ps2 一 data; 
input rdn; 
output [7:0] data; 
output ready; 


output overflow; 


output [3:0] count; 

// 

reg 

overflow; 

// 

reg 

[3:0] 

count; 

// 

reg 

[9:0] 

buffer; 

// 

reg 

[7:0] 

fifo[7:0]; 

// 

reg 

[2:0] 

w_ptr f r_ptr; 


internal signal, for test 
fifo overflow 
count ps2_data bits 
ps2 一 data bits 
data fifo 

// fifo write and read pointers 
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// detect falling edge of ps2_clk 
reg [2:0] ps2 一 elk 一 sync; 
always @ (posedge elk) begin 

ps2 一 elk 一 sync <= {ps2_clk_sync[1:0],ps2_clk}; 

end 

wire sampling = ps2__elk 一 sync[2] & ~ps2—clk—sync[1]; 
always @ (posedge elk) begin 

if (clrn == 0) begin 

令 

count <= 0; 
w_ptr <= 0; 
r_ptr <= 0; 
overflow <= 0; 

end else if (sampling) begin 

if (count == 4 9 dlO) begin 

if ( (buffer[0] == 0) && // start bit 

(ps2 — data) && // stop bit 

("buffer[9:1])) begin // odd prity 

fifo[w 一 ptr] <= buffer[8:1]; // kbd scan code 

w 一 ptr <= w 一 ptr + 3'bl; 

overflow <= overflow | 

(r_ptr == (w 一 ptr + 3'bl)); 

end 

count <= 0; // for next 
end else begin 

buffer[count] <= ps2_data; // store ps2 一 data 
count <= count + 3'bl; // count ps2 一 data bits 

end 

end 

if (!rdn && ready) begin 

r_ptr <= r_ptr + 3 f bl; 
overflow <= 0; 

end 

end 

assign ready = (w_ptr != r 一 ptr); 
assign data = fifo[r_ptr]; 
endmodule 


图 15.15 是以上代码的仿真波形，显示的是接收 “ L ” 键的扫描码 4 B 时的情 
形。 4 B (0100101 1 2 )的最低位先到达。图中的 count 是内部信号，拉出来是为了看着 
方便。由于一共要接收11位 （1 位起始位、8位数据、1位校验位和1位停止位)，所 
以计数值从0计到 A 。 当数据被读走 （ rdn 为 0) 后，数据线 data 送出0。 

需要注意的是以上代码中的 ps 2_ dk 和 ps 2. data 均定义成了输入信号，而实际上 

它们应该是双向的信号。主机也可以发送命令给键盘，比如复位命令 ( FF ) 以及表示 
NumLock、Caps Lock 和 Scroll Lock 的 LED 灯是否点亮的命令 （ ED ) 等。有关双向信 

号的电路设计将在 15.4.2 小节描述。 . 




m 15.15 PS/2 键盘仿真波形 


15.4.2 PS/2 鼠标 

PS /2 键盘送扫描码给主机。与此类似， PS /2 鼠标送移动信息及按钮的状态信息 
给主机。图 15.16 给出的是三按钮鼠标（中间按钮带一小轮的那种）的信息格式，共有 
四个字节。如果是两按钮的鼠标，只有前三个字节。 



7 6 5 4 3 2 1 0 



m 15.16 PS/2 鼠标数据格式 


鼠标的左右移动量用 9 位补码表示的带符号数 X 8 • • • Xo 表示，鼠标向左移为 
负，右移 为正； 上下移动量用 9 位补码表示的带符号数丫 8 •••¥() 表示，鼠标向下移 
为负，上移 为正； 小轮子的转动用 Z 7 ." Zo 表示。第一个字节中除了父 8 和丫 8 ,其 
他位的意义 如下： X ( Y ) 上溢表示水平（垂直）移动 M 超岀了表数范围，左、中、右按 
钮按下时相应的位为1。 

主机可以发送命令给鼠标来选择不同的工作方式。最常用的是所谓的流方式 
(Stream Mode ) :当移动鼠标或按下按钮时，鼠标立即送出连续的数据。加电后，鼠 
标本身进行内部测试，送出一个字节的 AA , 表示已经通过了测试。然后送岀00,表 
示自己是一个 PS /2 鼠标。主机收到 AA 00后，要送出 F 4 ( Enable ), 以允许鼠标进入 
流方式工作状态。鼠标收到 F 4 后，送出 FA 作为回答。这时鼠标处在流方式工作状 
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态，可以发出通常的数据包了。 

注意，如果你使用 FPGA, 刚加电时 FPGA 芯片还没被初始化，无法检测到 AA 
00。 FPGA 可以忽略这两个字节的数据，直接送出 F4 并检测 FA。FPGA 可以在任何 
时候送出 FF (Soft Reset) 给鼠标，令其进行初始化。鼠标收到这个命令后，送出 FA 
作为回答，然后进行内部测试，再送岀 AA 00 (与加电时的动作相同)。 

主机与鼠标之间的信号线有两条：时钟信号 ps2_clk 和数据信号 ps2_data 。 它们 
与 PS/2 插口的连接关系见图 15.17 。 由于鼠标使用它们来接收命令和发送数据，因此 
这两条线是双向的。在鼠标控制器一侧可以使用三态门来控制主机数据的输 岀：当 
ps2_coe (Clock Output Enable) 为 1 时，主机时钟信号 ps2_cout 经三态门送到 ps2_clk 
线上，为 0 时三态门输 出为 高阻；当 ps2_doe (Data Output Enable) 为 1 时，主机数据 
信号 ps2.dout 经三态门送到 ps2_data 线上，为 0 时三态门输出为高阻。 



ps2xlk 


270 a 


GND 


m 15.17 PS/2 鼠标控制器信号线连接关系 


双向信号和三态门控制的 Verilog HDL 描述可以使用以下的例子。当使能信号为 
1时，送出二值 信号； 为0时，送出高阻信号。注意第一行的信号类型是 incnit (input 

and output , 双向)。 

inout ps2 一 elk, ps2—data; // bi-directional signals 
assign ps2 一 elk = ps2_coe ? ps2—cout : l f bz; 
assign ps2 一 data = ps2 一 doe ? ps2_dout : l f bz; 

鼠标从主机接收数据（命令）的时序如图 15.18 所示。图中 ps 2 .clk fO ps 2_ data 的 
虚线部分由主机送出，实线部分由键盘送出。注意图中最 h 面的4个信号是鼠标控 
制器的内部信号。 

首先，由主机送岀低电平的 ps 2_ C 0 U t 到 ps 2_ clk ， 告诉鼠标，主机要发送数据 
了。然后释放 ps 2_ clk 并把起始位经由 ps 2. dout 送至 ps 2_ data 。 鼠标检测到起始位的 
下降沿后，开始驱动 ps 2_ clk ， 送出一个负脉冲。主机检测到 ps 2_ clk 的负脉冲后，送 
出数据的最低位 ( do )。 然后依次送岀数据的其他位，时钟仍由键盘侧提供。当奇校验 
位送出后，主机释放 ps 2_ data 线（由提拉电阻送出停止位)。鼠标在收到停止位后，送 
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ps2-Coe 

ps2.cout 

ps2_doe 


ps2-dout 
ps2_clk 
ps2 一 data 


start I dp I d| I d 2 I d 3 | d4 | d 5 | | d 7 P | stop 



图 15.18 主机送控制字给 PS /2 鼠标的时序图 

岀一个低电平的 ACK 到 p S 2_ data 线。然后鼠标要忙着执行刚收到的命令（比如软复 
位命令 FF )， 并告诉主机执行结果（比如送岀 FA AA 00)。 

鼠标送数据给主机的时序见图15.19。时钟信号由鼠标侧提供。时钟高电平时鼠 
标开始送数据，时钟低电平时主机开始读数据，与 PS /2 键盘接口控制器相同。 

p s2 - cik LrLn_rLn_r"LrLrLrLn_ru ~ 

P?2-data start | ~ dp | d| | 山 | 山 | 山 | ds | 4 | d ， |parity| stop 

图 15.19 PS /2 鼠标送数据字给主机的时序图 

读者可以根据以上的描述，设计 PS /2 鼠标控制器的 Verilog HDL 代码（教科书作 
者一般总是把难题留给读者)。 

15.5 视频图像阵列 VGA 

本节介绍 VGA ， 给出它的接口控制器设计的 Verilog HDL 代码，并演示如何在 
VGA 上显示键盘字符。 

15.5.1 VGA 及其接口控制器设计 

VGA (Video Graphics Array ) 是 IBM 公司制定的一种视频数据的传输标准。它的 
接口信号主要有5个： R ( Red)、G ( Green )、 B ( Blue)、HS (Horizontal Synchronization ) 
和 VS (Vertical Synchronization )， 即红、绿、蓝、水平同步和垂直同步。水平同步和 
垂直同步又称行 ( Line ) 同步和巾贞 ( Frame ) 同步。这些都是模拟 （ Analogue ) 信号，用于 
连接诸如 CRT 和 LCD 等显示器。以下简称红、绿、蓝为 RGB 。 

计算机生成的是数字 （ Digital ) 信号，因此需要有 D / A 转换器。液晶显示器可以 
直接显示数据，但为了兼容，液晶显示器也提供 VGA 接口。这就需要再把模拟信号 

经由 A / D 转换成数字信号。从 D 到 A 再到 D 会造成精度的损失，因此最好使用数字 
视频接口 DVI (Digital Visual Interface ) 0 本节只讨论 VGA 。 
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图 15.20 VGA 同步信号 

显示器 （CRT 或 LCD) 的分辨率 (Resolution) 是指屏幕每行有多少个像素及每 
帧有多少行。标准的 VGA 的分辨率是640 X 480，即每行有640个像素，每列有 
480个像素。高分辨率的显示器有 XGA (1024 x 768)、 SXGA (1280 X 1024 )、 UXGA 
(1600 X 1200 )、 OXGA (2048 X 1536 )、 OSXGA (2560 X 2048) 以及宽屏的 WXGA 
(1366 X 768)、 WSXGA (1680 X 1050) 和 WUXGA (1920 X 1200) 等。从视觉效果考 
虑，每秒显示的帧数不应小于24。分辨率越高，每秒送出的像素数也应越多。由于 
传送速率的限制，有些特高分辨率的显示器每秒也只能刷新十几帧。这对像作者一 
样眼神差一些的人来讲也是完全没有问题的。 

并不是所有的时间都在传送像素。由于 CRT 的电子束回扫（从一行的尾到下一 
行的头或从一帧的尾到下一帧的头）也需要时间，这时必须要让 RGB 送出电压为0 
的信号（黑色)。图 15.21 所示的是 VGA 的同步信号长度以及何时才能送出像素。图 
中水平同步的数字是像素数，垂直同步的数字是行数。 


96 | 48 -640-^16 



RGB 一行 (640 像素 ) 



图像的显示是以像素 (Pixel) 为单位从左上角开始一行一行进行的。行同步信号 
是负脉冲。负脉冲来时要由 RGB 送出在当前行显示的像素。下一个负脉冲用来显示 
下一行。当整个屏幕（一帧）显示一遍后，由帧同步信号送出一个负脉冲，又从左上 
角弁始显示，如图 15.20 所示。 

显 /K 器 I I 



时间 


t 


垂直同步 


『 


水平同步 



m 15.21 VGA 水平同步和垂直同步信号的长度 
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如果负责送出像素的时钟的频率是 25.2MHz, 我们可以计算出每秒可以刷新多 
少帧： 25.2 X 10 6 /[(96 + 48 + 640+ 16) X (2 + 33 + 480 + 10)] = 60 。 

像素的颜色由模拟信号 RGB 的电压决定，而这三个信号是 D/A 转换器的输出， 
因此原始的表示红绿蓝的三个数据的位数就决定了能够显示的颜色的数童。所谓的 
真彩色 (True Color) 是指每个数据都冇 8 位，即用 3 X 8 = 24 位来表示一个像素，其 
颜色的数 M 就有 2 24 = 16777216 种。如果你看到产品广告说有 1677 万种色彩，就是 
这个意思。也有用 27 位的，再多就没有意义了，因为人眼根本就区分不岀来。 

搞懂了 VGA 的时序，我们就可以设计它的时序控制器了。但是如何产生 RGB 
相对应的数据还是有些讲究的。如果我们要显示图像，则需为每个像素指定一个颜 
色，这就需要有一个比较大的视频存储器。如果只是显示字符，则只需要较小的视 
频缓冲区，因为一个字符的颜色是一样的，并且字符的形状是固定的。 

为了计算上的方便，我们假设分辨率是 1024 x 512( 实际没有这样的产品)。如 
果要用真彩色来显示图像（比如照片)，那么视频存储器的容量需要多大呢？很简单， 
答案是 512 KX 24 位，即 1.5 MB 。 需要19位地址，每次读出24位。如果不要求显 
示图像而只是作为字符显示器来用，就不需要这么大的存储器了。假设有128种不 
同的字符，每个字符也用真彩色来显示，一个字符用16 X 8的点阵来表示 （16 行8 
列)，那么需要多大容量的存储器呢？停一下先算算看，搞清楚了就会设计电路了。 

解答如下。一个字符可用 7 位来表示 （ log 2 128 = 7 )， 另由一个 24 位的数据来表 
示这个字符的颜色。一帧冇 512/16 = 32 行，每行有 1024/8 = 128 个字符。因此， 
显示缓冲区需要有 (128 X 32) X (7 + 24) = 4K x 31 位，即 15.5ICB 。 另外还要有一 
个字模产生器(字模表)，它的容量是 128 X 16 X 8 = 2K X 8 位，即 2KLB 。 一 共需要 
17.5KB, 大约是 1.5MB 的 1% (注 意： 1M= 1024K )。 如果全屏字符只用一种颜色， 
比如黑底白字，则每个字符的 24 位表示颜色的数据也可以省去。设计时需要注意字 
模点阵送出的 次序： 16 行像素显示一行字符。当然，如果已经有了视频存储器，则 
可以把字符点阵送入视频存储器。 

为了演示如何用点阵表示字符，以下我们给出一个 ASCII 字符点阵的例子。假 
设它存放在一个文件中，文件名是 font8.c 。 一共有 96 个字符 (ASCII 码 0x20-0x7f), 
每个字符用8 X 8的点阵表示，占用8个字节。想不想知道每个字符的形状？ 

9 

const unsigned char Font[][8] = { 


{0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00}, 

/★<SPACE> 

20 

V 

{0x18, 0x18, 0x18, 0x18, 0x00, 0x18, 0x18, 0x00}, 


1 

• 

21 

★/ 

{Ox6c,Ox6c,0x48,0x00,0x00,0x00,0x00,0x00}, 

/★ 

嘗 f 

22 

V 

{0x6c,Ox6c,Oxfe,Ox6c,Oxfe,0x6c,Ox6c, 0x00}, 

/★ 

# 

23 

*/ 

{0x18,0x7e,0xd8,0x7e,Oxlb,0x7e,0x18,0x00}, 

/★ 

$ 

24 

V 

{0x62,0x66,0x0c,0x18,0x30,0x66,0x46,0x00}, 

/★ 

% 

25 

V 

{0x38,0x6c, 0x68, 0x76,Oxdc,Oxcc, 0x76, 0x00}, 

/★ 

& 

26 

★/ 

{0x18,0x18, 0x30, 0x00, 0x00, 0x00, 0x00, 0x00}, 

/* 

• 

27 

*/ 

{0x0c,0x18,0x30,0x30,0x30,0x18,0x0c,0x00}, 

/* 

( 

28 

*/ 

{0x30,0x18,0x0c,0x0c,0x0c f 0x18,0x30, 0x00}, 


) 

29 

★/ 

{.0x00, Ox6c, 0x38, Oxfe, 0x38, Ox6c, 0x00, 0x00 }, 

/* 

★ 

2a 

*/ 
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{0x00,0x18,0x18,0x7e,0x18,0x18,0x00,0x00}, /★ + 2b ★/ 

{0x00,0x00,0x00,0x00,0x00,0x18,0x18,0x10}, /★ , 2c */ 

{0x00,0x00,0x00,0x7e,0x00,0x00,0x00,0x00}, /★ - 2d ★/ 

{0x00,0x00,0x00,0x00,0x00,0x18,0x18,0x00}, /* • 2e ★/ 

{0x02,0x06,0x0c,0x18,0x30,0x60,0x40,0x00}, /* / 2f ★/ 

{0x3c,0x66,0x6e,0x76,0x66,0x66,0x3c,0x00}, /★ 0 30 ★/ 

{0x18,0x18,0x38,0x18,0x18,0x18,0x3c,0x00}, /* 1 31 */ 

{0x7c,0x06,0x06,0x3c,0x60,0x60,0x7c,0x00}, /★ 2 32 ★/ 

{0x7c,0x06,0x06,0x3c,0x06,0x06,0x7c,0x00}, /★ 3 33 ★/ 

{0x66,0x66,0x66,0x7e,0x06,0x06,0x06,0x00}, /* 4 34 ★/ 

{0x7e,0x60,0x60,0x7c,0x06,0x06,0x7c,0x00}, /* 5 35 */ 

{0x3c,0x60,0x60,0x7c,0x66,0x66,0x3c,0x00}, /* 6 36 ★/ 

{0x7e,0x06,0x0c,0x18,0x18,0x18,0x18,0x00}, /★ 7 37 */ 

{0x3c,0x66,0x66,0x3c,0x66,0x66,0x3c,0x00}, /★ 8 38 ★/ 

{0x3c,0x66,0x66,0x3e,0x06,0x06,0x3c,0x00}, /★ 9 39 ★/ 

{0x00,0x18,0x18,0x00,0x18,0x18,0x00,0x00}, /★ : 3a */ 

: {0x00,0x00,0x18,0x18,0x00,0x18,0x18,0x10}, /★ ; 3b ★/ 

{0x0c,0x18,0x30,0x60,0x30,0x18,0x0c,0x00}, /* < 3c ★/ 

{0x00,0x00,0x7e,0x00,0x7e,0x00,0x00,0x00}, /★ = 3d ★/ 

{0x30,0x18,OxOc,0x06,OxOc,0x18,0x30,0x00}, /* > 3e ★/ 

{0x3c,0x66,0x06,Oxlc,0x18,0x00,0x18,0x00}, /★ ? 3f ★/ 

{0x3c,0x66,0x6e,0x6a,0x6e,0x60,0x3e,0x00}, /★ @ 40 ★/ 

{0x3c,0x66,0x66,0x7e,0x66,0x66,0x66,0x00}, /★ A 41 ★/ 

{0x7c, 0x66, 0x66, 0x7c,0x66,0x66,0x7c,0x00}, /* B 42 ★/ 

{0x3c,0x66,0x60,0x60,0x60,0x66,0x3c,0x00}, /★ C 43 */ 

{0x7c,0x66,0x66,0x66,0x66,0x66,0x7c,0x00}, /* D 44 ★/ 

{0x7e,0x60,0x60,0x7c,0x60,0x60,0x7e,0x00}, /* E 45 ★/ 

{0x7e, 0x60,0x60, 0x7c, 0x60, 0x60, 0x60, 0x00}, /* F 4 6 ★/ 

{0x3c,0x66,0x60,0x6e,0x66,0x66,0x3c,0x00}, /★ G 47 ★/ 

{0x66,0x66,0x66,0x7e,0x66,0x66,0x66,0x00}, /★ H 48 ★/ 

{0x3c,0x18,0x18,0x18,0x18,0x18,0x3c,0x00}, /★ I 49 ★/ 

{0x3e,OxOc,OxOc,OxOc,OxOc,0x6c,0x38,0x00}, /* J 4a ★/ 

{0x66,0x6c,0x78,0x70,0x78,0x6c,0x66,0x00}, /* K 4b ★/ 

{0x60,0x60,0x60,0x60,0x60,0x60,Ox7e,0x00}, /★ L 4c ★/ 

{0xc6,Oxee,Oxfe,0xd6,0xc6,0xc6,0xc6,0x00}, /* M 4d ★/ 

{0x66,0x66,0x76,Ox7e,0x6e,0x66,0x66,0x00}, /★ N 4e ★/ 

{0x3c,0x66,0x66,0x66,0x66,0x66,0x3c,0x00}, /★ 0 4f ★/ 

{0x7c,0x66,0x66,0x7c,0x60,0x60,0x60,0x00}, /★ P 50 ★/ 

{0x3c,0x66,0x66,0x66,0x6e,0x66,0x3e,0x00}, /* Q 51 ★/ 

{0x7c,0x66,0x66,0x7c,0x66,0x66,0x66,0x00}, /* R 52 */ 

{0x3e,0x60,0x60,0x3c,0x06,0x06,0x7c,0x00}, /★ S 53 ★/ 

{0x7e,0x18,0x18,0x18,0x18,0x18,0x18,0x00}, /* T 54 ★/ 

{0x66,0x66,0x66,0x66,0x66,0x66,0x3c,0x00}, /★ U 55 ★/ 

{0x66,0x66,0x66,0x66,0x3c,0x3c,0x18,0x00}, /★ V 56 ★/ 

{0xc6,0xc6,0xd6,0xd6,Oxfe,Oxee,0x44,0x00}, /★ W 57 ★/ 
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{0x66,0x66,0x3C/0xl8 f 0x3c f 0x66,0x66,0x00}, 
{0x66, 0x66, 0x66, 0x3c f 0x18,0x18,0x18,0x00}, 
{0x7e,0x06,0x0c,0x18,0x30,0x60,0x7e, 0x00 } f 
{0x3c, 0x30,0x30, 0x30,0x30, 0x30, 0x3c f 0x00 } f 
{0x4 0, 0x60, 0x30, 0x18, 0x0c, 0x06, 0x02, 0x00 } f 
{ 0x3c,0x0c,0x0c,0x0c,0x0c,OxOc,0x3c, 0x00}, 
{0x10,0x38,Ox6c, 0x00, 0x00, 0x00, 0x00, 0x00}, 

{0x00,0x00,0x00,0x00,0x00,0x00,0x00,Oxff }, 
{0x18,0x18,OxOc, 0x00, 0x00, 0x00, 0x00, 0x00}, 
{ 0x00, 0x00,Ox3c,0x06,0x3e,0x66, 0x3a, 0x00}, 
{ 0x60/ 0x60, 0x7c, 0x66, 0x66, 0x66, 0x7c,0x00}, 
{0x00,0x00,0x3c,0x66,0x60,0x66,Ox3c,0x00}, 

{0x06, 0x06, 0x3e, 0x66, 0x66, 0x66, 0x3e, 0x00}, 
{0x00,0x00,0x3c f 0x66,0x7c,0x60,Ox3c,0x00}, 
{OxOe,0x18,0x18,0x3e,0x18,0x18,0x18,0x00}, 
{ 0x00, 0x00, 0x3e, 0x66, 0x66, 0x3e, 0x06, 0x3c}, 
{0x60,0x60,0x7c,0x66,0x66,0x66,0x66,0x00}, 
{0x18,0x00,0x18,0x18,0x18,0x18,0x18,0x00}, 
{0x18,0x00,0x18,0x18,0x18,0x18,0x18,0x70}, 
{0x60, 0x60, 0x66,Ox6c,0x78,Ox6c, 0x66, 0x00}, 
{0x30, 0x30, 0x30, 0x30, 0x30, 0x30,Oxlc,0x00}, 
{ 0x00, 0x00,Oxcc,Oxfe,0xd6,0xc6,0xc6,0x00}, 
{0x00, 0x00, 0x7c, 0x66, 0x66, 0x66, 0x66, 0x00}, 
{0x00, 0x00, 0x3c, 0x66, 0x66, 0x66, 0x3c, 0x00}, 
{0x00, 0x00, 0x7c f 0x66, 0x66, 0x7c, 0x60, 0x60 }, 
{0x00, 0x00, 0x3e, 0x66, 0x66, 0x3e, 0x06, 0x06 }, 
{0x00, 0x00, 0x36, 0x38 / 0x30, 0x30, 0x30, 0x00}, 
{0x00, 0x00, 0x3e,0x60,0x3c,0x06, 0x7c f 0x00}, 
{0x18,0x18,Ox3c,0x18,0x18,0x18,OxOc,0x00}, 
{0x00, 0x00, 0x66, 0x66, 0x66, 0x66, 0x3c, 0x00}, 
{0x00, 0x00, 0x66, 0x66, 0x66, 0x3c,0x18,0x00 } 9 
{0x00, 0x00, 0xc6,0xd6,0xd6,0x7c, 0x28, 0x00}, 
{0x00, 0x00, 0x66, 0x3c,0x18,0 x3 c, 0x66, 0x00}, 
{0x00, 0x00, 0x66, 0x66, 0x66, 0x3e, 0x06, 0x7c }, 
{0x00, 0x00, Oxle, OxOc,0x18,0x30,0x7e, 0x00}, 
{ Oxlc, 0x30, 0x30, 0x60, 0x30, 0x30,Oxlc,0x00}, 

{0x18,0x18,0x18 f 0x18,0x18,0x18,0x18, 0x00}, 
{0x38,OxOc,OxOc,0x06,OxOc,OxOc,0x38,0x00}, 
{0x00,0x32, 0x4c, 0x00, 0x00, 0x00, 0x00, 0x00}, 
{Oxff,Oxff,Oxff,Oxff,Oxff,Oxff, Oxff, Oxff} 


/* 

X 

58 

V 

/* 

Y 

59 

V 

/* 

Z 

5a 

★/ 

/* 

[ 

5b 

★/ 

/★ 

\ 

5c 

★/ 

/★ 

] 

5d 

V 

/* 


5e 

V 

/★ 


5f 

V 

/★ 


60 

★/ 

/* 

a 

61 

★/ 

/* 

b 

62 

★/ 

/* 

c 

63 

★/ 

/* 

d 

64 

★/ 

/* 

e 

65 

V 

/* 

f 

66 

*/ 

/* 

g 

67 

★/ 

/* 

h 

68 

*/ 

/* 

■ 

69 

*/ 

/* 

■ 

D 

6a 

*/ 

/* 

k 

6b 

*/ 

/* 

1 

6c 

*/ 

/* 

m 

6d 

*/ 

/* 

n 

6e 

*/ 

/* 

o 

6f 

V 

/* 

P 

70 

★/ 

/* 

q 

71 

V 

/★ 

r 

72 

★/ 

/* 

s 

73 

V 

/* 

t 

74 

★/ 

/* 

u 

75 

V 

/★ 

V 

76 

★/ 

/* 

w 

77 

★/ 

/★ 

X 

78 

V 

/★ 

y 

79 

★/ 

/* 

z 

7a 

★/ 

/* 

{ 

7b 

★/ 

/★ 

1 

7c 

*/ 

/* 

} 

7d 

V 

" 


7e 

V 


<DEL> 

7f 

★/ 


以下的程序显示 fontS . c 中的所有字符。 chars . per . line 是每行显示的字符个数。 
如果是标准的 VGA , 其值为640/8 = 80。我们在程序中将其设为16,是基于以下 
两点考虑的。 （1) 点阵中的一位对应一个像素，但我们在程序中用一个字符来 显示： 
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为1时显示大写字符 “O 


为0时显示空白 字符； （2) 本书版面宽度的限制。 


extern unsigned char Font[] [8]; 
main () { 


int chars__per 一 line = 16; // 8 
int char 一 no; 

unsigned char char—row—bitmap 
int row, col; 
int i; 

for (char—no = 0; char 一 no < 9 


16; // 80 x 60 characters for VGA 


for (row = 

for (i 


0; char—no < 96; char—no += chars_per—line) 

0; row < 8; row++} { 




0; i < chars_per 一 line; i++) 


if ( (char 一 no + i) < 

char 一 row__bitmap 


96) 




Font[char 一 no + i][row]; 


for (col 


7; col >= 0; col —— ) 


if (((char 一 row 一 bitmap >> col) 
printf ("0 ” 〉 ； 


1) 




1) 


else 


printf 



w ) 


printf (” \n w ) 


// next row 


程序的运行结果见图 15.22, 排版时把行间距调小了。最后一个字符 （ Delete ) 为 


什么要设计成全白？答案是留给读者在书写俄罗斯方块游戏程序时使用。 



§8 §8 


38 


嚣爆 



薇 


o§8 


C 》册+ 


oooooo 


§8 


88 





图 15.22 ASCII 字符点阵 


以下描述一种简单的用于图像显示的 VGA 的时序控制器，见图15.23 。 VGA 
模块产生视频存储器 Pixel_RAM 的读地址，从视频存储器中读出12位的像素数据 
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(每种颜色用4位表示，共可表示4096种颜色)。读来的数据 d 」 n [ ll :0] 经锁存后由 
r [3:0]. g [3:0] 和 b [3:0] 送出。 D / A 转换器由简单的电阻阵列实现。注意接到每种颜 
色高位数据的电阻应有较低的阻抗，然后依次递增，接到最低位的电阻的阻抗值最 
高。阻抗值的设定应使数字信号为最大值时输出的电压为 0.7 V ， 最小值 (0) 时输出的 
电压为 0 V 。 作为参考，四个电阻的阻抗值可分别设为51011、 lkO , 2 k ( l 和 4 kH 。 
水平同步信号 hs 和垂直同步信号 vs 也经电阻（比如 82.50) 连到显示器接口。 


Pixel—RAM VGA 



图 15.23 VGA 时序控制器 

VGA 的分辨率是 640 X 480, 为了简化设计及提高读地址产生的速度，我们只 
是把行列的像素地址拼接在一起。行地址 （ row) 记录行号，因为一帧有 480 行，因此 
需要 9 位 地址； 列地址 （ col) 记录列号，因为一帧有 640 列，因此需要 10 位地址。总 
的地址位数为 19 。 注意，这种做法会导致视频存储器的浪费，因为 19 位地址的存储 
器可以存放 1024 X 512 个像素。另外的一种产生地址的做法是行地址乘以 640 再加 
上列地址，但由于需要一个乘法器，导致电路成本的增加及地址产生的速度变慢。 

以下是 VGA 时序控制器的 VerilogHDL 代码。输入时钟信号 elk 为 50 MHz , 经 
二分频后的时钟信号 vga _ clk 为 25 MHz ; dm 是低电平有效的复位 信号； d 」 n 是从视 
频存储器读来的12位像素 数据； rd _ a 是视频存储器的19位 地址； rdn 是低电平有效 
的读 信号； r 、 g 、 b 分别是4位的红、绿、蓝 信号； hs 和 vs 分别是水平同步和垂直 
同步 信号； h _ CO unt * v _ COU m 是内部信号，送出来仅供测试用，它们分别是水平方向 
和垂直方向的计数器。阅读代码时请参看图 15.21 所示的时序。 

// VGA signal generator, 640 x 480, 25MHz 

module vga (elk,clrn,d—in,rd 一 a,rdn,r,g,b,hs,vs,h—count,v 一 count); 

input elk; // 50MHz 
input clrn; 
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reg [9:0] v—count; // VGA vertical counter (0-524) : lines 

// _ 

// I —I 

// I 2| 

// _I 1 frame I_| (next frame) 

// I 2|33| - 480 110| 2|33| 

// I 35 I II 

// I - 515 - 1 I 

// I - 525 I 

reg [11:0] data—reg; // latched rrrr—gggg 一 bbbb, pixel 
reg video 一 out; // VGA signal enable 
// vga 一 elk: 25MHz 

always @ (posedge elk or negedge clrn) begin 

if (clrn == 0) begin 
vga 一 elk <= l f bl; 
end else begin 

vga—clk <= ~vga — elk; 

end 

end 

// h 一 count: VGA horizontal counter (0-799) 
always @ (posedge vga—clk or negedge clrn) begin 

if (clrn == 0) begin 
h — count <= 10 f hO; 

end else if (h_count == 10 f d799) begin 

h 一 count <= 10 f hO; 
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end else begin 

h count <= h count + 10 f hi; 

end 

end 

// v 一 count: VGA vertical counter (0-524) 
always @ (posedge vga 一 elk or negedge clrn) begin 

if (clrn == 0) begin • 

v—count <= 10 f hO; 

end else if (h 一 count == 10 f d799) begin 

if (v 一 count == 10 f d524} begin 
v 一 count <= 10 f hO; 
end else begin 

v count <= v count + 10 # hi; 

end 

end 

end 

// video—out: VGA signal enable 

always @ (posedge vga—clk or negedge clrn) begin 

if (clrn == 0) begin 

video 一 out <= l f bO; 
data—reg <= 12 f hO; 
end else begin 

video_out <= ~rdn; 

data—reg <= d_in; // pixel RAM access time: 〆 40ns 

end 

end 

// rdn : one vga 一 elk cycle ahead due to video 一 out delay 
assign rdn = ~(((h 一 count>=10 f dl43) && (h 一 countclO'd783)) && 

((v 一 count>=10’ d35) && (v 一 count<10’ d515))); 

wire [9:0] row = v_count - 10 f d35; 

wire [9:0] col = h 一 count - 10 f dl43; 

assign rd 一 a = {row[8:0] , col}; 

assign hs = (h 一 count >= 10^96) ; // horizontal synchronization 
assign vs = (v_count >= 10 f d2>; // vertical synchronization 
assign r = (video_out) ? data 一 reg[11:8] : 4 f hO; // 4-bit red 

assign g == (video 一 out) ? data—reg [07:4 ] : 4’hO; // 4-bit green 

assign b = (video 一 out) ? data 一 reg[03:0] : 4 f hO; // 4-bit blue 

endmodule 

由于读视频存储器需要时间，因此我们先读出像素，将其锁存后再显示。如果 
边读边显示的话，可能会造成屏幕显示不稳定。但如果视频存储器本身就是同步的 
(输出用时钟锁存)，则没必要再锁存了。本例中使用 vga_clk (25MHz) 的一个时钟周 
期读视频存储器，因此视频存储器的访问周期时间不应大于 40ns 。 

图 15.24 和图 15.25 示出的是 VGA 时序控制器的仿真波形。计数值用十进制表 
示。图 15.24 是送出第一个像素前后的时序。此时 v_count 等于 35 (0 〜 34 没有像素 
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font_table 


char』am 


送出），在 h _ count 等于144处送出 rgb 数据 （0 


rsj 


143没有像素送出)，而读视频存储 


器在它的前一个时钟周期进行（视频存储器地址 rd _ a 为0000、低电平有效的读信号 
rdn 为0)。由于我们没有把视频存储器加进来，只是在 d _ in 端输入十六进制的 5 AF , 
因此 r 、 g 、 b 的输出总是5、 A 、 F 。 图 15.25 是下一帧垂直同步信号开始处前后的时 
序。在 vs 变0之前， v . count 已到达最大值524， h _ count 也到达最大值 799 0 


15.5.2 VGA 显示键盘字符 


本小节给出一个具体的例子说明如何从 PS /2 键盘接收字符并在 VGA 上显示。 
图 15.26 示出的是该例的总体结构图。如 15.4.1 小节所述， PS /2 键盘送出的信号有 


两个： ps 2_ clk 和 ps 2_ data 。 送到 VGA 的信号有 


b 、 hs 和 vs 。 由 r •键盘侧送出 


的是 Make Code 和 Break Code 字节序列，我们首先从中提取扫描码，把它转换成 
ASCII 码 （7 位)，然后把 ASCII 码送入一个字符显示缓冲区。我们使用本节给岀的 
8 x 8 字模来表示一个字符，因此缓冲区的容量应为80 x 60 x 7位。为了设计方便 


起见，我们令缓冲区的容量为128 X 64 x 7位，地址为7 + 6 




13位。 


ps 2 -keyboard 


monitor 


键盘键盘接口控制器 


字符显示缓冲区 


字模表 


VGA 接口控制器 VGA 显示器 


图 15.26 VGA 显示键盘字符的总体结构图 


在该例中，我们没有使用视频存储器。因此从 VGA 接口控制器送出的视频存储 
器地址要被转换成字符显示缓冲区的地址，从中得到相应位置的字符的 ASCII 码， 
然后使用该 ASCII 码去访问字模表，得到点阵信息，送给 VGA 接口控制器。由于本 


例只用黑白两色显示字符， 


个像素只用一位表示，因此 VGA 接口控制器的12位 


数据均接同一信号。它的 Verilog HDL 代码如下。 


module vga—keyboard (elk, clrn, ps2—elk, ps2 一 data, r, q , b, hs, vs); 

input elk; // 50MHz 
input clrn; 


input 


output [3:0] 


ps2—elk, ps2_data; // keyboard clock and data 
[3:0] r, g, b; // red, green, blue, 4-bit for each 


output hs, vs; // horizontal and vertical synchronization 


以下代码调用 vga 模块 ( VGA 接口控制器)。 vga _ row 和 vga . col 分别是 VGA 像 
素的行地址和列地址； row 和 col 分别是一个 8 x 8 字模的行地址和列地址； char_row 
和 char . col 分别是字符显示缓冲区的行地址和列地址； kbd _ row 和 kbd _ col 分别是当 
键盘字符要写入字符显示缓冲区时的行地址和列地址。 


SS 

■ ■■■ 

■ ■S 

■ ■■T 
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// vga 

wire [18:0] rd—a; // pixel RAM addr ， 640 (1024) x 480 (512) 

wire vga 一 rdn; // assign rd—a = {row[8:0 ] f col}; 

wire [9:0] h_count; // VGA horizontal counter (0-799) 

wire [9:0] v 一 count; // VGA vertical counter (0-524) 

vga vgal (elk, clrn, {12{ft—do}}, rd—a, vga_rdn, r, g, b, 

hs, vs, h—count, v—count>; 
wire [8:0] vga—row = rd—a[18:10]; 

wire [9:0] vga 一 col = rd_a[9:0]; 

wire [2:0] row = vga 一 row[2:0]; 

wire [2:0] col = vga_col[2:0]; 

wire [5:0] char 一 row = cram_w ? kbd_row : vga—row[8:3]; 

wire [6:0] char 一 col = cram—w ? kbd—col : vga—col[9:3]; 

以下代码调用 char _ ram 模块（字符显示缓冲区)。 cram . a 是字符显示缓冲区的地 
址； cram _ do 是缓冲区的输出 （ ASCII 码)； cram _ di 是缓冲区的输入，也是 ASCII 码， 
由键盘扫描码转换后得到； cram _ w 是缓冲区的写使能信号。 char _ ram 模块的 Verilog 
HDL 代码稍后给出。 

// char 一 ram, 80 (128) x 60 (64) = 4800 (8192) chars 

wire [12:0] cram—a = {char 一 row,char—col}; 

wire [6:0] cram 一 do; // ascii, to font 一 table 

char—ram charram (cram—do, cram 一 di, cram 一 a, cram 一 w, elk); 

以下代码调用 font _ table 模块（字模表)。 fta 是字模表的地址，由 ASCII 码、字模 
行地址和字模列地址拼接 得到； ft _ do 是字模表的输出（像素)，只有1位。以上两个 
信号用来读 ROM 本应足够了，但 Altera 有些器件不支持异步存储器，要求加一个时 
钟信号进来捣乱。 fontJable 模块的 Verilog HDL 代码稍后给出。 

// font 一 table 128 *8*8*1 
wire [12:0] fta = {cram 一 do,row,col} ; 
wire ft — do; // mono color, to vga 

font—table ft (fta, ^elk, ft_do); // synchronous ROM 

以下代码调用 ps 2 Jceyboard 模块（键盘接口控制器)。 ready 表示键盘控制器有一 
个字节准备 好了； data 就是那个字节。 

// ps2 一 keyboard 

wire [3:0] count; // internal signal, for test 

wire ready, overflow; 

wire [7:0] data; // kbd code 

ps2 一 keyboard kbd (elk, clrn, ps2—elk, ps2__data, kbd—rdn, data, 

ready, overflow, count); 

以下代码检査键盘送来的字节，看看它是否是 Shift 键，是否是 Break 代码。应 
该检查的项目有很多，比如是否是扩展键等，我们在这里省略了。 
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// key type 
reg is — shift; 
reg is—break; 
always begin 

is 一 shift = 0; 
is 一 break = 0; 
if (ready) begin 

if (data == 8 / hf0) begin // break 

is 一 break = 1; 

end 

if ((data == Q f hl2) | | (data == 8 f h59)) begin // shift 

is—shift = 1; 

end 

end 

end 

以下代码定义了 4 个状态。状态0是非常一般的状态，准备接收一个键盘扫描 
码（当按住一个键不放时，可以连续接收)。但如果是 Shift 键，把 shifLpressed 置1; 
如果是 Break Code ，将进入状态1。状态1和状态2都不干什么事情，只是等待最 
后一个字节的到来。状态3是一次键盘输入的最后一个状态。如果最后一个字节是 
Shift , 释放 shift _ pressed 。 最后一个状态的下一状态当然是状态0 了。 

// state 0, 1, 2, 3 
reg [1:0] state; 
reg shift_pressed; 
reg key 一 released; 

always @ (negedge elk or negedge clrn) begin 

if (clrn == 0) begin 

state <= 0; 
end else begin 

case (state) 

2^0: begin // for make code 

if (is 一 shift) shift—pressed <= 1; 
if (is—break) state <= 1; end 
2 f dl: begin // for break code 

if (!ready) state <= 2; end 
2 f d2: begin // waiting for last code 

if (ready) state <= 3; end 
2 f d3: begin // ignore last code 

if (is—shift) shift_pressed <= 0; 
if (!ready) state <= 0; end 

endcase 

end 

end 


以下代码的主要任务是把键盘扫描码转换成 ASCII 码（调用 s 2 a ftinction ) 并把它 
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写入字符显示缓冲区 （ cram _ w = 1)。我们在这里只转换了部分扫描码。 fimction 中的 
default 应把0赋给 s 2 a ， 但为了好玩，我们故意把扫描码的低7位直接送过去了。因 
此本段代码只供演示，实际应用时还需修改和扩充。 

// get ascii of make code 
reg [6:0] cram 一 di; // ascii 
reg cram_w; 
reg kbd 一 rdn; 

always @ (posedge elk) begin 

if (ready) begin 

kbd—rdn <= 0; 

if ((state == 0) && (!is—shift)) begin 

cram 一 di <= s2a(data); // ascii 

cram_w <= 1; // write to char RAM 

end 

end else begin 

cram_w <= 0; 
kbd—rdn <= 1; 

end 

end 

// scan code to ascii code 
function [6:0] s2a; 

input [7:0] s; 
case (s) 


8 f h4b: 

s2a 


shift^pressed 

9 

• 

i 9 

h4c : 

l 9 

h6c; 

// 

L 

1 

8^43: 

s2a 

= 

shift 一 pressed 

9 

• 

i 9 

h49 : 

l 9 

h69; 

// 

I 

§ 

l 

8^35: 

s2a 

= 

shiftypressed 

9 

• 

7 ， h59 : 


h79; 

// 

Y 

y 

8 r hlc: 

s2a 

= 

shift_pressed 

9 

參 

l 9 

h41 


h61; 

// 

A 

a 

8 f h3a: 

s2a 

= 

shift_pressed 

9 

癱 

l 9 

h4d 

: h6d; 

// 

M 

m 

8^31 : 

s2a 

= 

shift 一 pressed 

9 

• 

l 9 

h4e 

、、 1 ， 

h6e; 

// 

N 

n 

8 # hl6: 

s2a 


shift 一 pressed 

9 

參 

l 9 

h21 

\ l 9 

h31; 

// 

i 

• 

1 


8’h29: s2a = 7’h20; // <space> 
default : s2a = s[6:0]; // just for fun 
endcase 

endfunction 

以下代码产生 kbd _ row 和 kbd _ col ， 即当键盘字符要写入字符显示缓冲区时的行 
地址和列地址。当字符的列位置超过80时，显示到下一行的开始处。但如果字符的 
行位置超过60时，本代码没做任何处理（应该使屏幕图像上滚，即移动字符显示缓 
冲区的内容)。 

// character row and column for writing to char RAM 

reg [5:0] kbd 一 row = 0; 

reg [6:0] kbd 一 col = 0; 

always @ (negedge cram—w> begin 
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if (kbd 一 col == 7 f d79) begin 

kbd 一 row <= kbd—row + 6 f bl; 
kbd—col <= 0; 

end else kbd 一 col <= kbd—col + 7 f bl; 

end 

endmodule 

以下是 char _ ram 模块的具体代码，就是定义一个 8 Kx 7 的存储器。 

module char_ram (dataout, datain, addr, we, memclk); 

input [6:0] datain; // ascii code 

input [12:0] addr; // 80 x 60 = 4800 --> 8192 chars 
input we, memclk; 

output [6:0] dataout; 

lpm_ram__dq ram (. data (datain) , • address (addr) , .we (we), 

•inclock(memclk ), .q(dataout)); 

defparam ram*lpm 一 width =7; 

defparam ram.lpm—widthad = 13; 

defparam ram.lpm—indata = "registered ”； 

defparam ram.lpm—outdata = "unregistered ”； 

defparam ram. lpm—address 一 control = ’’registered"; 

endmodule 

以下是 font _ table 模块的具体代码，就是定义一个 8 Kx 1 的 ROM ， 其内容是 
ASCII 字符的字模。初始化文件是 asciLfont . mif 。 

module font_table (address, clock, q); 

input [12:0] address; // [12:6] ascii code; [5:3] row [2:0] col; 
input clock; 
output q; 

lpm 一 rom lpm — rom — component (.address(address), 

•inclock(clock), .q(q ))； 
defparam lpm 一 rom—component•lpm 一 width = 1, 

lpm — rom 一 component•lpm 一 widthad = 13, 

lpm 一 rom—component•lpm 一 numwords = ”unused", 

lpm_rom — component.lpm_file = "ascii 一 font.mif”, 

骞 

lpm — rom 一 component•lpm 一 indata = "unused", 

lpm 一 rom 一 component•lpm 一 outdata = "unregistered", 

lpm—rom 一 component•lpm 一 address 一 control = "registered"; 

endmodule 

以上代码中调用的 vga 模块和 ps 2. keyboard 模块的具体的 Verilog HDL 代码已经 
给过了。 font _ table 模块中的初始化文件 ( ascii . font . mif ) 可根据 font 8. c 产生。以下的 C 
程序的例子是产生方法之一。 


extern unsigned char Font[][8]; 
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main () { 

int chars—per 一 line = 80; If 80 x 60 characters for VGA 
int char 一 no; 

unsigned char char 一 row—bitmap; 
int addr; 
int i, j; 

printf (” DEPTH = 8192;\n">; 
printf ("WIDTH = l;\n ”）； 
printf ("ADDRESS—RADIX = HEX; \n ff ); 
printf ("DATA 一 RADIX = HEX;\n ”）； 
printf ("CONTENT BEGIN\n n ); 
addr = 0; 

for (char 一 no = 0; char—no < 128; char 一 no++) { 

for (i =0; i < 8; i++) { // 8 rows per char 

if (char 一 no >= 0x20) { // <space> 

char—row 一 bitmap = Font[char 一 no - 0x20][i]; 

} else { 

char_row—bitmap = 0; 

} 

for (j = 7; j >= 0; j - 一 ) { // 8 pixels per row 

printf ( f, % 04x : ” ， addr); 
addr++; 

if (((char—row— bitmap >> j) & 1) == 1) { 

printf ("1;\n n ); 

} else { 

printf (”0;\n">; 


printf ("END ;\n "〉； 


15.6 I / O 总线 

CPU 与 I / O 设备之间的通信往往通过总线 ( Bus ) 进行。本节描述串行总线 I 2 C 和 
并行总线 PCI , 并给出 Verilog HDL 的例子以演示总线接口的电路实现。 

15.6.1 I2C 串行总线 


I 2 C 或 I 2 C 总线 (Inter Integrated Circuit Bus ) 是用于集成电路器件 （ I / O 设备或控 
制器）之间连接的串行总线。它只有两个 信号 ： SCL (时钟）和 SDA (数据)。这两个信 
号都是双向的。当没有器件驱动时，由于提拉电阻的作用，信号为高电平。 I 2 C 允许 
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有多个主器件 （ Master )。 在以下的讨论中，我们假定只有一个主器件，其他的全部是 
从器件 ( Slave ) o 有关 I 2 C 的完整描述，请阅读文献[30]。 

I 2 C 总线的传输速率是从 100 Kb/s (标准）- 400 Kb/s (中速）- IMb/s (快速）-到 
3.4 Mb/s (高速)。数据信号和时钟信号之间的时序关系如图 15.27 所示。在 SLC 的低 
电平期间， SDA 可以 变化； 在 SCL 高电平期间， SDA 必须是稳定的。 



数据 

必须稳定 

数据 

允许变化 




SDA / 


i 


~ y ~ 


SCL 




t _ 


/ \ 

/ \ 

/ 


阁 15.27 I2C 总线数据信号和时钟信号的时序关系 


一次数据的传送由主器件主导。主器件和从器件既可以是发送器也可以是接收 
器。比如主器件往从器件写数据时，主器件是发送器，从器件是接 收器； 而主器件 
接收从器件发来的数据时，主器件是接收器，从器件是发送器。 

I 2 C 的数据传输以字节为单位进行，每次可以传输多个字节。传输开始时，由主 
器件送出起始位 start ， 结束时仍是由主器件送出停止信号 stop 。 起始位是在 SCL 高 
电平时由 SDA 送出一个下 降沿； 停止信号是在 SCL 高电平时由 SDA 送出一个上升 
沿，如图 15.28 所示。 



start 


stop i 

• 

1 


SDA — 

\ 

/ \ 

! / 




> 

9 

9 

1 

1 


SCL 


图 15.28 I2C 总线的 start 和 stop 时序的约定 


当一个字节由发送器送出后，发送器释放 SDA ， 由接收器送出一个低电平的回 
答信号 ack ( Acknowledge ), 表示已经收到一个字节，如图 15.29 所示。 


发送器送出 




接收器送出 



SCL 



图 15.29 I2C 总线的 ack 时序的约定 

所有的时钟脉冲，包括用于回答信号的第9个脉冲，都由主器件送出。 I 2 C 总线 
上可以有多个从器件，每个从器件都有至少一个自 d 的地址。主器件可以首先送出 
地址到 I 2 C 总线上。只有被寻址到的从器件才能送出 ack 。 主器件可以通过检查是否 
接收到 ack 来判断从器件是否存在。 
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如图 15.30 所示，一次送岀的从器件的地址有7位，故如果地址只送一次，从器 
件的数量不能超过128个。为了消除这个限制， I 2 C 规定了某些特定的地址可以扩充 
至10位，分两次送出。本书不描述它，只假定地址是7位。一个字节有8位，除了 
7位地址，剩下的一位用于读写控制 （ r / W )。 当 r / W 为1时，表示对从器件进行读操 
作； 为0时，表示写操作。注意，只有跟在起始位 start 后面的字节才做如此解释， 
其他的作为8位数据看待。 


SDA 

SCL 


ML 


XW^ ： =: ： Oa/T=.X» 





start address r/w ack wait data ack wait data 


J I_I I_I L_J 

ack wait stop 


图 15.30 I2C 总线的地址、读写和数据时序的约定 


一个字节的发送从最高位开始。当主器件为回答信号送出第9个时钟正脉冲 
后，释放 SCL 。 这时从器件如果要做内部处理而没有能力继续接收或发送，就强迫 
SCL 变低电平，告诉主器件先等一等（图 15.30 中的 wait )。 当从器件释放 SCL 后， 
字节传输可以继续进行。 

并不是发送器总是能收到一个低电平的回答信号，有时会收到一个高电平。我 
们称这个高电平为 nack (Not Acknowledge ) ,即不回答。原因有以下 4 种 ： （ 1) 接收器 
根 本就不 存在； （2) 接收器正忙 着呢； （3) 收数据或命令看 不懂； （ 4) 主器件(接收 
器)命令从器件停下来别送了。图 15.30 中的 X 就是 nack 0 

因为 I 2 C 上连接有多个从器件，主器件决定要和哪个从器件开始通信时，必须 
首先送出那个从器件的地址，并告诉它是读还是写。图 15.31 是主器件往从器件写数 
据的例子（主器件是发送器)。图中的深色部分由主器件送出。 S 代表起始位 ， Slave 
Address 是从器件的7位地址， r / W 为0,表示写操作，然后连续送两个字节的数据， 
最后送出停止位（图中用 P 表示)。浅色部分由从器件送出，每收到一个字节，都送 
出一个回答。最后一个也可能不回答。 


SDA 



图 15.31 I2C 总线的写时序 


图 15.32 是主器件从从器件读数据的例子（主器件是接收器)。首先由主器件送岀 
起始位、从器件地址以及 r / W 位（为1，表示是读操作)。从器件给出回答，送出第一 
个字节的数据。主器件收到这个字节后，给一个回答。从器件再送出第二个字节的 
数据。然后主器件说，够了，别送了 （ X )， 并告诉从 器件： 本次读操作结朿 （ P )。 
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SDA 



图 15.32 I2C 总线的读时序 


以上的两个图分别是写操作和读操作的时序。在主器件和从器件的一次通信过 
程期间，可以完成读和写的混合操作，如图 15.33 所示。主器件先往从器件写数据。 
这个数据的意义可能是从器件的内部寄存器号，也可能是从器件内部的存储器（比如 
EPROM ) 地址。然后再送出起始位，开始读操作。注意，在这个起始位之前，主器 
件并没有送出停止位。第二个起始位称为重复的起始位 Sr (Repeated Start )。 


SDA 



7 位写 8 位 7 位读 8 位 


图 15.33 I2C 总线的先写后读时序 

I 2 C 总线的基本的协议就简单地介绍到这里，以下演示如何用 Verilog HDL 实现 
I 2 C 总线的接口电路。注意，以下的代码并非针对某种特定的 I 2 C I / O 设备，而是尽 
可能给出比较通用的代码。 

假设系统时钟 elk 是 50 MHz ， I 2 C 总线的传输速率是 400 kb / s 。 我们把 elk 25 
分频，生成 2 MHz 的 I 2 C 时钟 i 2 c _ clk , 这样每发送一位需要5个 i 2 c_clk (2 M /5 = 
400 k )。 图 15.34 示岀的是使用5个 i 2 c _ clk 发送 start 、 1、0和 stop 的波形。 scl 有两 
个周期的高电平和3个周期的低电平，接收数据时在 i 2 c _ dk 的第2、3周期之间的上 
升沿处采样0或1数据，采到小圆圈处的数据。 



1 0 stop 


图 15.34 I2C 总线信号和 i2c_clk 时钟信号之关系 

为发送和接收回答信息而送出的 scl 稍有不同（图中没有画出)，它的高电平有3 
个 i 2 c _ clk 周期（最后一个周期也为高，以检査是否要等待)。 

图 15.35 是 I 2 C 总线接口控制器的信号和状态转移图。图中的 elk 是系统时 
钟； esn 是低电平有效的片选 信号； addr [ 1:0]是 地址； wm 是低电平有效的写信 
号； d _ in [7:0] 是输人 数据； rdn 是低电平有效的读 信号； d _ out [7:0] 是输出数据。 
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(a) I2C 总线接口控制器信号 （ b) 状态转移图 


图 15.35 I2C 总线接口控制器信号和状态转移图 

状态转移图一共有6个状态。 IDLE 状态等待 wm 和 addr [ l :0]， 以便转至下一 
状态。如果下一状态要发送，则需把要发送的数据 （ d 」 n[7:0]) 锁存下来。如果是接 
收，则要把回答信号 (ack/nack) 锁存下来 （ d 」 n[0]), 详细的动作见表 15.3; START 状 
态送出起 始位； TX 状态发送8位数据并接收回答，如果 scl 信号被从器件强制拉 
低，则进人等待 状态； RX 状态接收 8 位数据并送出回答，如果 scl 信号被从器件强 
制拉低，则进人等待状态； STOP 状态送出停 止位； WAIT 状态简单地等待 scl 被从 
器件释放。从 IDLE 转向哪个状态由驱动程序决定，方法是送不同的 addr ■给 i 2 c 控制 
器(_ = 0)，见表 15.3 中的定义。所以，这是一个通用的状态转移图。针对不同的 
I 2 CI /0 器件，我们可以书写不同的驱动程序，使用同一个 I 2 C 总线控制器，实现主 
器件和各种从器件之间的通信。 


表 15.3 总线主器件控制器地址 addr[l:0 ] 的意义 


addr[l:0] 

rdn = 0 

wm = 0 

0 

读数据 

转至 START 状态 

1 

读状态 

转至 TX 状态，同时锁存 d 」 n[7:0] 

2 


转至 RX 状态，同时锁存 dJn[0] (ack/nack) 

3 


转至 STOP 状态 


以下是 I 2 C 总线主器件控制器的 Verilog HDL 代码。我们把模块内部的一些信号 
拉到了外面，供测试用。实际的信号见图15.35。我们对整个代码分段加以说明。 

'define IDLE 
'define START 1 


'define TX 
'define RX 


2 

3 


'define STOP 4 
"define WAIT 5 

module i2c (elk,esn,addr,wrn / d 一 in,rdn,d 一 out,sda,scl,i2c 一 elk, 

pulse—count,bit 一 count,curr 一 state,next 一 state); 
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input elk; 
input esn; 
input [1:0] 
input wrn; 
input [7:0] 
input rdn; 
output [7:0] 
inout sda; 
inout scl; 


addr ; 
d 一 in; 
d—out ; 


// system clock, 50MHz 
// chip select, active low 
// address 

// write, active low 
// data in, data to be sent 
// read, active low 

// data out, received data or status 
// I2C SDA 
// I2C SCL 


output i2c 一 elk; // for test 
output [2:0] pulse 一 count; // for test 
output [3:0] bit 一 count; // for test 
output [2:0] curr 一 state; // for test 
output [2:0] next 一 state; // for test 


以下代码生成 2 MHz 的时钟信号 i 2 c _ clk 。 本应对 50 MHz 的 elk 进行 25 分频，但 
代码中故意只做了4分频，只是为了看波形图方便起见。读者可以把代码中的3和1 
分别用24和12 ( 或 11) 替换掉(在代码中做了标注)。 

// I2C clock 

reg [4:0] clk_count = 0; // elk / 25 = 2MHz 

reg i2c_clk =1; // 2MHz 

always @(posedge elk) begin 

if (elk—count == 3) elk—count <= 0; // (elk 一 count == 24) 
else elk count <= elk count + 5 f dl; 

if (elk 一 count <= 1) i2c_clk <= 1; // (clk_count <= 12) 

else i2c 一 elk <= 0; 

end 


以下代码生成两个计数器。一个是 pulse _ count ，对 i 2 c _ clk 计数，范围是0〜4， 
其用途见图 15.34; 另一个是 biuxnmt ， 对数据位计数，范围是0〜 8。 该计数器只 
为发送或接收状态服务。 

// pulse 一 count and bit 一 count 

reg [2:0] pulse 一 count = 0; // counting i2c — elk cycles 
reg [3:0 】 bit—count = 0; // counting number of bits 
always @ (posedge i2c 一 elk) begin 

if (curr 一 state == 'IDLE) begin 
pulse 一 count <= 0; 
bit 一 count <= 0; 

end else begin 

if (pulse 一 count == 4) pulse 一 count <= 0; 
else if ((curr — state != 'WAIT) || scl) 
pulse 一 count <= pulse—count + 3 f dl; 
if ( ( (curr_state == 、 TX) | | (curr_state == 'RX)) && 

(pulse 一 count == 4)) begin 
if (bit 一 count == 8) bit 一 count <= 0; 
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else bit—count <= bit—count + 4'dl; 

end 

end 

end 


以下代码实现状态转移，请参考图 15.35 及表15.3。注意，为了节省版面，我们 
把 case 语句内部的 end 放在一个语句的右边，而不是占用一行。 


// next state and data input 
reg [7:0] in 一 buf; 


reg 


tx ack 


reg [2:0] curr 一 state 
reg [2:0] next_state 




'IDLE; 

'IDLE; 


always @(posedge elk) begin 

case (curr_state) 


// data to be sent 
// ack sent be master 
// current state 
// next state 


IDLE : begin 

if ((!esn) && (!wrn)) begin 

case (addr) 


2, 

dO: 

begin 

next. 

_state 

<=' START; 

end 

2, 

dl: 

begin 

next_ 

■state 

<="TX; 





in—buf <= 

d—in; 

end 

2, 

d2: 

begin 

next- 

一 state 

<="RX; 





tx—ack <= 

ci_in[0 】 ； 

end 

2, 

d3: 

begin 

next_ 

—state 

<='STOP; 

end 

default : 

next_ 

.state 

<="IDLE; 



endcase 


end end 

'START : if (pulse 一 count == 4) next 一 state <= 'IDLE; 
、 TX: if (bit—count == 8) 

case (pulse 一 count) 


3 f d2: 

if 

(scl == 

0) 

next_ 

.state 

<= 

"WAIT; 

3 f d3: 

if 

(scl == 

0) 

next_ 

■state 

<= 

'WAIT; 

3 f d4: 

if 

(scl == 

0) 

next_ 

.state 

<= 

'WAIT; 


else 


next. 

.state 

<= 

'IDLE; 


default : ; 


endcase 


、 RX: 


if (bit 一 count == 8) 
case (pulse 一 count) 


3 f d2: 

if 

(scl == 

0) 

3 f d3: 

if 

(scl == 

0) 

3 f d4: 

if (scl == 

else 

0) 

default : 

endcase 

• 

i 



next—state <= 
next 一 state. <= 
next 一 state <= 
next state <= 


'WAIT; 

'WAIT; 

'WAIT; 

'IDLE; 


'STOP : if (pulse—count == 4) next 一 state <= 'IDLE; 
'WAIT : if (scl != 0) next—state <= 'IDLE; 
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endcase 


end 

always @ (posedge i2c 一 elk) begin 

curr — state <= next 一 state; 

end 

以下代码实现数据（也包括起始位和停止位）的发送和接收。由于 I 2 C 总线信 
号是双向的，我们必须使用三态门。两个信号 scl 和 sda 的三态门控制信号分别是 
enable _ scl 和 enable . sda , 见开始处的两个 assign 语句。如果想送出一位1,则令三 

态门控制信号为1，送出高阻(相当于 1); 如果想送0,则令三态门控制信号为0, 
送出0。重要部分是使用 pulse _ CO imt 来控制一位数据的发送时序和接收采样点，使 
用 bit _ count 来控制一个字节及回答位的发送与接收。发送字节时要接收回答信息 
( ack / nack ) ,接收字节时要发送回答信息。注意为了接收回答信息而送出的 scl (由 
enable ^ scl 控制）与其他情况下的 scl 稍有不同。 


// transfer data via I2C bus 


assign scl = enable—scl ? I 9 bz : l f b0; 
assign sda = enable 一 sda ? l # bz : l f bO; 


reg [7:0] 

out_buf; 


// 

data received 

reg 

rx 一 ack; 


// 

ack received 

reg 

txd; 


// 

bit to be sent 

reg 

enable—scl = 

0; 

// 

tri-state control 

reg 

enable 一 sda = 

0; 

// 

tri-state control 


always @(posedge i2c 一 elk) begin 


case (curr 一 state) 

'IDLE: begin enable 一 scl <= 0; enable—sda <= 0; end 
'START: begin 

case (pulse 一 count 〉 


3 f d0: 

begin 

enable. 

_scl 

<= 

0; 



enable— 

.sda 

<= 

1; end 

3 f dl: 

begin 

enable. 

.scl 

<= 

1; 



enable 一 

_sda 

<= 

1; end 

3 ， d2: 

begin 

enable 一 

一 scl 

<= 

1; 



enable. 

一 sda 

<= 

0; end 

3 ， d3: 

begin 

enable 一 

•scl 

<= 

0; 



enable. 

.sda 

<= 

0; end 

3 ， d4: 

begin 

enable. 

.scl 

<= 

0; 



enable 一 

一 sda 

<= 

0; end 

endcase end 





'TX: begin 






if (bit 一 count == 8) begin 

// : 

receive 

case 

(pulse 一 

.count) 





3 f dO : begin enable—scl <= 0; 

enable—sda <= 1; end 
3 / dl : begin enable 一 scl <= 1; 
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enable 一 

_sda 

<= 

1; 

end 

3 r d2: 

begin 

enable. 

•scl 

<= 

1; 




enable 一 

一 sda 

<= 

1; 




rx—ack 

<= 

sda; 


end 

d3: 

begin 

enable. 

_scl 

<= 

1; 




enable 一 

_sda 

<= 

1; 

end 

3 f d4: 

begin 

enable. 

_scl 

<= 

0; 




enable. 

一 sda 

<= 

1; 

end 


endcase 

end else begin // send data bit 

case (pulse_count) 

3 f dO : begin 

enable_scl <= 0; 

enable 一 sda <= in 一 buf[7-bit—count]; end 
3 # dl: begin 

enable—scl <= 1; 

enable 一 sda <= in—buf[7-bit 一 count]; end 
3 # d2: begin 

enable 一 scl <= 1; 

enable 一 sda <= in 一 buf[7-bit—count]; end 
3 f d3: begin 

enable 一 scl <= 0; 

enable 一 sda <= in 一 buf[7-bit—count] ; end 
3 f d4: begin 

enable—scl <= 0; 

enable 一 sda <= in 一 buf [7-bit__count ] ; end 

endcase 

end end 
、 RX: begin 

if (bit—count == 8) begin // send ack/nack 

case (pulse 一 count) 

3 f d0: begin enable—scl <= 0; 

enable 一 sda <= tx 一 ack; end 
3 f dl: begin enable_scl <= 1; 

enable—sda <= tx 一 ack; end 
3 f d2: begin enable 一 scl <= 1; 

enable 一 sda <= tx—ack; end 
3 f d3: begin enable 一 scl <= 1; 

enable 一 sda <= tx_ack; end 
3 f d4: begin enable 一 scl <= 0; 

enable 一 sda <= tx 一 ack; end 

endcase 

end else begin // receive data bit 

case (pulse 一 count) 

3 f d0: begin enable 一 scl <= 0; 
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enable 一 sda <= 1; end 
3 f dl: begin enable 一 scl <= 1; 

enable 一 sda <= 1; end 
3 r d2: begin enable 一 scl <= 1; 

enable 一 sda <= 1; 

out 一 buf[7-bit 一 count] <= sda; 

end 

3 f d3 : begin enable 一 scl <= 0; 

enable 一 sda <= 1; end 
3 f d4: begin enable 一 scl <= 0; 

enable 一 sda <= 1; - end 

endcase 
end end 
'STOP: begin 

case (pulse—count > 


3 f dO: 

begin 

enable. 

_scl 

<= 

0 




enable. 

_sda 

<= 

0 

end 

3 f dl: 

begin 

enable. 

■scl 

<= 

1 




enable 一 

_sda 

<= 

0 

end 

3 f d2: 

begin 

enable. 

.scl 

<= 

1 




enable. 

—sda 

<= 

1 

end 

3 f d3: 

begin 

enable. 

_scl 

<= 

0 




enable. 

_sda 

<= 

1 

end 

3 f d4: 

begin 

enable— 

•scl 

<= 

0 




enable— 

■sda 

<= 

1 

end 

endcase end 






WAIT: 

begin 

enable. 

_scl 

<= 

1; 



enable. 

_sda 

<= 

1; end 


endcase 

end 

以下代码为 CPU 提供接收到的数据或者总线控制器本身的状态信息。 


// read from host 

reg [7:0] d 一 out; 

always @(posedge elk) begin 

if ((!esn) && (!rdn)) begin 

case (addr) 

2 f d0: d 一 out <= out 一 buf; 

2 f dl: d 一 out <= {enable—scl, enable 一 sda, scl, sda, 

curr 一 state, rx—ack}; 
default : d 一 out <= dz; 
endcase 

end 

end 

endmodule 
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代码到此结束，还算简洁吧。但简洁不是它的优点，优点是灵活。灵活的意思 
是 通用： 你只要书写驱动程序，使用以上电路基本上可以和任何 12 C I / O 器件通信。 


db/i2c sim.cvwf 


□回圍 


Master Time Bar: J 4.02 us ► Pointer: j 2.4 us Interval: -1.S2 u$ Start: | Ops End: IB. 74 us 


访 0 


炒 1 



2.56 us 


5.12 us 


7.68 us 


10.24 us 


12.8 us 


15.36 us 


Name 




sda^result 

scTresult 

:麝 I 




A4 


A 


n 

■B9BD 

1 

mesma 

w 

— Bl 



图 15.36 I 2 C 仿真波形 (全时段）及数据 


db/i2c.sim.cvwf 


Master Time Bar: 4.02 us ^ ► Pointer: j 7.95 us Interval: ! 3.93 us Start 


U^-0 


K#-1 


録 2 


啦 11 


砂 12 


fi^13 


l#16 

•17 


1^26 

访 27 


炒 28 


_29 
録 33 
_38 
^42 


I# 46 


Narrn 


csn 

rdn 

d.out 

sda 

sc I 

addr 


wrn 


sda "result 
sc「result 
i2c_c Ik 

pulse_cour 
bit^count 
curr state 
next_state 

elk 


+3.68 us 


□回区 I 


End: 




图 15.37 I 2 C 仿真波形 


图 15.36 是仿真波形，给出类似于图 15.33 的时序，即先写后读。仿真波形的数 
据在波形图的下方给出，前三个字节由 I 2 C 控制器送出，最后一个字节从 12 C I / O 设 
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备读出。字节及 S ( Sr ) 之间的空隙表示 IDLE 状态。第三个字节送出后进入等待状 
态，其余都没等待。注意双向信号 scl 和 sda 的输出分别用 scrresult 和 sda ~ result 表 

示。不高也不算低的波形表示 Z (高阻）状态，由于外部接有提拉电阻，它实际上可 
以被认为是1。图 15.37 是发送 Sr 前后的比较详细的波形图。请读者对照源代码仔细 
研究一下波形，说不定会发现一些错误。 


15.6.2 PCI 并行总线 


PCI (Peripheral Component Interconnect ) 是 一 种并行的高性能总线，用于连接 
各种扩展电路板和 CPU / 存储器子系统等，目前被 PC 、 工作站和伺服器所广泛使 
用。 PCI 总线是一种同步的分时复用的双向总线（地址和数据共用相同的信号线)。 

按 PCI 的约定，数据传输的发起方 （ Initiator ) 是主设备 （ Master )， 被动的一方 
( Target ) 是从设备 （ Slave )。 连接到 PCI 总线上的一个电路模块既可以扮演主设备的角 
色，也可以扮演从设备的角色。即， PCI 允许有多个总线控制器。当然，一个电路模 
块只扮演从设备的角色也未尝不可。图 15.38 示出了 PCI 的总线信号。 


必需的信号 


地址和数据 



接口控制< 




错误报告 



仲裁 

(Master only ) 



系统 




可选的信号 




► 




> 64位扩展 








爹 


斧 





接 n 控制 


爹 




中断 





JTAG 

(IEEE 1149.1) 




图 15.38 PCI 总线信号 

图中左侧信号是必须要有的，右侧是供选择用的。主设备必须具备的信号有49 
个。如果只扮演从设备的角色，需47个信号（没有 REQN 和 GNTN )。 以下简要描述 
必需信号的意义，详细的描述请参阅文献[28]。注意信号名称以 “ N ” 结尾的表示低 
电平有效(在 PCI 标准中使用#)。 
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1) CLK : 时钟 （ Clock ) 信号。除了复位和中断信号外，其他的均是以 CLK 为基准 
的同步 信号： CLK 的上升沿对输入信号采样，输出信号在下降沿处送出。 

2) RSTN: 低电平有效的复位 （ Reset) 信号。用于所有 PCI 设备的内部状态及输出 
信号的复位。在 CLK 信号稳定之后， RSTN 至少要保持 100ms 有效。 

3) AD[31:0]: 分时复用的地址和数据 （Address and Data) 总线。地址和数据共用总 
线是为了减少引脚的数量。 一 次总线传输以一个地址周期 (Address Phase) 开 
始，跟着一个或多个数据周期 （Data Phase )。 多个数据的地址自动递增。 

4) C/BEN[3:0]: 总线命令和字节使能 （Bus Command and Byte Enables )。 在地址周 
期， C/BEN[3:0] 指出总线传输的类型（存储器或 I/O 读写命令等)，见表 15.4; 
在数据周期， C/BEN[3:0] 对应 AD[31:0] 上四个字节的使能（低电平有效)， 
BEN[3] 对应最高字节， BEN[0] 对应最低字节。 


表1 5.4 C/BEN[3:0] 之命令类型 


C/BEN[3:0] 

命令类型 

C/BEN[3:0] 

命令类型 

0000 

中断响应 

1000 

保留 

0001 

特殊周期 

1001 

保留 

0010 

I/O 读 

1010 

配置读 

0011 

I/O 写 

1011 

配置写 

0100 

保留 

1100 

读多个 Cache 块 

0101 

保留 

1101 

64位地址周期 

0110 

存储器读 

1110 

读 一 个 Cache 块 

0111 

存储器写 

1111 

写 一 ^个 Cache 块 


5) PAR : 对 AD [31:0] 和 C / BEN [3:0] 的偶校验位 ( Parity ), 即 AD [31:0]、 C / BEN [3:0] 
和 PAR 合在一起为1的位数是偶数。 PAR 信号的时序与 AD [31:0] 相同，但比 
AD [31:0] 晚一个时钟周期，以便有充裕的时间来计算校验位。 

6) IRDYN : 低电平有效的主设备准备好 （Initiator Ready )。 主设备往从设备写数据 
时，主设备发出 IRDYN 表示它已经把数据放在 AD [31:0] 上了。读数据时， 
主设备发出 IRDYN 表示它已经准备好了接收数据。 IRDYN 要保持有效，直到 
TRDYN 有效或从设备发出停止信号 STOPN 为止。 

7) TRDYN: 低电平有效的从设备准备好 (Target Ready )。 主设备往从设备写数据 
时，从设备发岀 TRDYN 表示它已经准备好了接收数据。读数据时，从设备发 
出 TRDYN 表示它已经把数据放在 AD[31:0] 上了。只有当 IRDYN 和 TRDYN 

都有效时才传输数据，否则等待，以实现不同速度的设备之间的数据传输。 

8) FRAMEN: 主设备发出低电平有效的 FRAMEN 表示数据传输开始或正在进行。 
撤销 FRAMEN 表示数据传输已是最后一个数据周期或已经结束。 

9) DEVSELN : 从设备发出低电平有效的 DEVSELN 表示自己已被选中。主设备可 
以使用这个输入信号来判断要访问的从设备是否出现在 PCI 总线上。 
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图 15.39 PCI 总线基本读操作时序 


10) STOPN: 低电平有效的 STOPN 要求主设备停止当前的数据传输。如果从设备需 
要很长的时间来响应主设备发出的数据传输请求，它会发出 STOPN 信号来暂 
时“挂起”当前的数据传输，以让总线来完成其他的数据传输。 

11) IDSEL: IDSEL (Initialization Device Select) 是一个专门为初始化 PCI 设备而准备 
的高电平有效的片选信号。在地址周期，当 IDSEL 为高电平并且 AD[1:0] 为 00 
时， C/BEN[3 : 0] 提供初始化命令， AD[10:8] 提供功能码， AD[7:2] 选择 PCI 设 

备的内部寄存器。 

12) REQN: 希望使用 PCI 总线的请求 （ Request) 信号，低电平有效。注意只有主设 
备才有此信号，从设备没有。 PCI 总线上允许有多个主设备，每个主设备都有 
一个 REQN 信号。主机系统中有一个总线仲裁器接收每个主设备的请求信号。 
复位信号 RSTN 有效时， REQN 必须是高阻状态。 

13) GNTN: 总线仲裁器发出的对 REQN 的响应 (Grant) 信号，低电平有效。每个主 
设备都有一个 GNTN 信号。当 GNTN 持续一个时钟周期有效时，主设备可以 
在下一个周期发岀 FRAMEN, 开始使用 PCI 总线传输数据。与 REQN 一样， 
从设备没有此信号。复位信号 RSTN 有效时， GNTN 必须被忽略。 

14) PERRN: 除了 “特殊周期” （Special Cycle )， 所有其他的传输周期中如果偶校验 
出错了， PERRN (Parity Error) 送出有效信号。因为 PAR 比 AD[31:0] 晚一个周 
期，所以 PERRN 要比 AD[31:0] 晚两个周期。这是一个三态信号，低电平有 
效，无效时浮空。由于该信号外接提拉电阻，从有效到浮空需要较长的时间， 
因此要求该信号在进入浮空状态之前必须有至少一个时钟周期的高电平。 

15) SERRN: 如果特殊周期中地址或数据的偶校验出错，或者出现其他致命的错误 
时， SERRN (System Error) 送出有效信号。这是一个漏极开路 （Open Drain) 的 
信号，与三态信号一样外接提拉电阻。 

PCI 定义相邻的两个时钟下降沿之间为一个周期，上升沿处在一个周期的中 
央。图 15.39 示出了 PCI 读操作的时序，每个时钟周期的动作如下所述。 
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IRDYN 

TRDYN 

DEVSELN 


图 15.40 PCI 总线基本写操作时序 

周期 1 总线空闲。 

周期2主设备发出一个有效地址 AD [31:0] 并由 C / BEN [3:0] 送出写命令。这是 
一 个地址周期。有效的 FRAMEN 也在这个周期发出。 

周期3主设备由 AD [31:0] 送出数据、由 C / BEN [3:0] 送出字节使能并发出有效 
的 IRDYN ， 告诉从设备数据有效。从设备送出有效的 DEVSELN 及 TRDYN , 
取走数据。第一个数据周期结束。 

周期4主设备提供第二个数据及字节使能。 IRDYN 和 TRDYN 均为有效的低电 
平，从设备取走数据，第二个数据周期结束。 


周期1总线空闲。 

周期2主设备发出一个有效地址 AD [31:0] 并由 C / BEN [3:0] 送岀读命令。这是 
一 个地址周期。有效的 FRAMEN 也在这个周期发出。 

周期3主设备释放地址线、由 C / BEN [3:0] 送出字节使能并发出有效的 IRDYN , 
表示它可以接收数据了。作为回答，从设备送出有效的 DEVSELN (或在下一个 
周期送出)。从设备把 TRDYN 置高表示它还没有提供有效的数据。 

周期4从设备送出数据并拉低 TRDYN , 告诉主设备有效的数据已经岀现在 
AD [31:0] 上了。主设备取走数据。这是第一个数据周期。注意在数据传输期间 
IRDYN 和 TRDYN 均为有效的低电平。 

周期5从设备拉高 TRDYN ， 告诉主设备下一个数据还没准备好。 

周期6是第二个数据周期， IRDYN 和 TRDYN 均有效，主设备取走数据。 

周期7从设备提供第三个数据， TRDYN 也保持有效。但这时主设备没准备 
好，把 IRDYN 置成了无效。 - 

周期8主设备重新拉低 IRDYN ，取走数据，以结束第三个数据周期。主设备拉 
高 FRAMEN , 指明这是最后一个数据周期。 

周期9所有信号都撤销，回到空闲状态。 

图 15.40 示出了 PCI 写操作的时序，每个时钟周期的动作如下所述。 
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• 周期5主设备和从设备都没准备好， IRDYN 和 TRDYN 均为高电平。 

• 周期6主设备提供第三个数据及字节使能， IRDYN 也被拉低，告诉从设备数据 
有效。主设备撤销 FRAMEN ， 告诉从设备这是最后一个数据周期。但这时从设 
备还没准备好，保持 TRDYN 高电平。 

• 周期7从设备还没准备好，继续保持 TRDYN 髙电平。 IRDYN 还是有效的低电 
平，等着 TRDYN 。 

•周期8从设备终于准备好了，拉低 TRDYN ， 取走数据。主设备见到有效的 
TRDYN , 撤销 IRDYN 。 第三个数据周期结束。 

• 周期9平安无事，回到空闲状态。 

以下我们给出一个简单的 PCI 从设备的设计例子。它实现的功能是通过 PCI 总 
线来访问存储器，其输入输出信号见图 15.41 。 注意该例并没有提供 PCI 总线所要求 
的全部信号。与存储器连接的信号描述如下。 （ l)mem_addr[31:0] 是 32 位存储器地 
址，我们假设存储器的高 16 位地址为全 1 ; (2) mem_data_read[31 : 0] 是 32 位从存储器 
读出的数据； （ 3) mem_data_write[3 1:0] 是 32 位写入存储器的数据； （ 4) mem_read_write 
是存储器读写信号， 1 读 0 写； （ 5)mem_r ea dy 是存储器准备好信号。 


PCI Bus pcLtargetjnem pcijnemory 



图 15.41 PCI 从设备（存储器)输人输出信号 


我们将给出图中 pci_target_mem 模块的 Verilog HDL 代码。我们定义了三个状 
态，它们分别是空闲状态 IDLE 、 存储器读状态 R_MEM 和存储器写状态 W_MEM 。 
这些状态在 Verilog HDL 的实现代码中用 next_state 表示，状态的转换发生在时钟的 
上升沿，见图 15.42 。 例如，当 cben = 7 时，从上升沿开始， next_state = W_MEM 。 

我们可以把 PCI 总线上的地址和数据先用时钟上升沿锁存下来，再去访问存储 
器。但这样会引入半个时钟周期的延迟。我们的做法是不锁存，直接用 PCI 总线上 
的地址和数据访问存储器。因此，我们把 tiext_ S t a te 用时钟的下降沿锁存下来，用 
state 表示，并用它来产生存储器的访问控制信号。 

我们通过检测 frarnen 下降沿的办法来判断一次传输是否开始。为此，我们使用 
了一个内部信号 pre_framen 来记录 framen 在前 一 个周期的电平。即，当 pre_framen 
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图 15.42 NexLState 和 State ( 存储器写 ) 


为 1 且 framen 为0时，一次传输正式开始。当 irdyn 和 trdyn 均有效时，传输一个数 
据，存储器地址加1 (如果使用字节地址则应该加4)。 

注意，如果从写数据 ad 的角度看，状态 state 实际上是晚了一个周期。比如，写 
第一个数据时的状态 (state = W _ MEM ) 来自于前一个周期的 cben = 7 (见图15.42)。 
如此，在最后一次写数据时，还不能确定写状态在下一状态结束。读数据也是一 
样。因此我们把输出使能信号 enable (为1时驱动 ad 总线）与上了 framen • irdyn , 
即，当 framen 和 irdyn 均无效时，令 enable 为0。若非如此，会和 PCI 主设备驱动 ad 
总线发生冲突。以下是实现 PCI 存储器读写的 Verilog HDL 代码。 


'define IDLE 0 
'define R MEM 1 


'define W — MEM 2 
module pci_target 一 mem 


input elk; 
input rstn; 
input framen; 
input [3:0] cben; 
inout [31:0] ad; 
input irdyn; 
output trdyn; 


(elk, rstn, framen,cben,ad,irdyn,trdyn, 
devseln,mem—read—write,mem 一 ready,mem 一 addr, 
mem—data—write,mem 一 data_read,state); 

// clock 
// reset 
// frame 

// command/byte enable 
// address/data 
// initiator ready 
// target ready 


output devseln; 


// device select 


// memory read (1) / write (0) 
// memory ready 


// memory address 


output mem — read_write; 
input mem 一 ready; 
output [31:0] mem 一 addr; 
output [31:0] mem 一 data 一 write; // data to memory 
input [31:0] mem — data 一 read; // data from memory 
output [1:0] state; // for test 

reg pre_framen; // for detecting falling edge of framen 


always @ (posedge elk) begin 


pre—framen <= framen; 


end 
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// state transfer 

reg [1:0] next—state = 'IDLE; // next state 

reg [31:0] auto 一 addr = 0; // address for burst mode 

always @(posedge elk or negedge rstn) begin 

if (!rstn) begin 

next 一 state <= 'IDLE; 
auto 一 addr <= 0; 

end else begin 

if (!framen && pre_framen) begin 

if (ad[31:16] == 16 f hffff) begin 

case (cben) 

4 f bOHO : begin next—state <= 、 R_MEM; 

auto—addr <= ad; end 
4 f bOlll : begin next 一 state <= 一 MEM; 

auto 一 addr <= ad; end 
default : begin next—state <= 'IDLE; 

auto 一 addr <= 0; end 

endcase 

end 

end else begin 

case (next—state) 

'R 一 MEM: begin 

if (!irdyn && !trdyn) begin 

auto 一 addr <= auto 一 addr + 1; 
end else begin 

if (framen && irdyn) begin 
next 一 state <= 'IDLE; 

end 

end 

end 

'W—MEM: begin 

if (!irdyn && !trdyn) begin 

auto 一 addr <= auto 一 addr + 1; 
end else begin 

if (framen && irdyn) begin 
next 一 state <= 'IDLE; 

end 

end 

end 

endcase 

end 

end 

end 

// memory signals 

wire write = (state == 一 MEM>; 
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assign mem — read—write = 〜 (write & ~irdyn & 一 trdyn); 
assign mem—data—write = write ? ad : 32 f hzzzzzzzz; 
reg [1:0] state; // state for memory access 
reg [31:0] mem_addr; // memory address 
always @(negedge elk) begin 

state <= next 一 state; 
mem 一 addr <= auto 一 addr; 

end 

// PCI output signals 

wire enable = (state == 、 R—MEM) & ~(framen & irdyn); 
assign ad = enable ? mem_data_read : 32 f hzzzzzzzz; 
assign trdyn = ~mem 一 ready; 

assign devseln = ~ ( (state != 'IDLE) & ~(framen & irdyn)); 
endmodule 


图 15.43 是存储器写操作的仿真波形。写存储器时的起始地址是 FFFFFFF 0, 连 
续写三个 数据： 55550000、55551 1 11和55552222。从图中可以隐约看出存储器的地 
址是自动增1的。三个写操作的位置在图中用了三个时间标尺标出。图 15.43 与 PCI 
定义的时序完全一致，请与图 15.40 进行比较。 
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图 15.44 是存储器读操作的仿真波形，它与图 15.39 也有相同的时序，也是读出 
三个数据。该图中的地址自动增1显示得比较清楚。另外我们也可以看出，在最后 
一次读操作完成时， state 仍在下一个周期表示是读状态。但如前所述，我们封锁了 
enable , 使得 ad 的输岀为高阻（见 acfresult 信号的最右端)。 


图 15.44 PCI 仿真波形（存储器读 ) 


15.7 


习题 


1. 参考图 15.5, 试用 VerilogHDL 设计一个 CRC -16- CCITT 的 CRC 码生成电路。 

2. 使用本章 UART 的 VerilogHDL 代码作为核心，试设计一个类似于 Intel 8251 A 
的串行接口控制器。 

3. 试设计一个 PS /2 键盘接口控制器，其中包括字符和数字键的键盘扫描码到 
ASCII 的转换电路。 

4. 试设计一个 PS /2 鼠标控制器，并在屏幕上显示鼠标光标，形状自己决定。 

5. 完善书中的 VGA 显示键盘字符的 VerilogHDL 代码，使其能够处理所有键的输 
人，并加入闪烁的光标。 

6. 试设计一个彩色“字符”显示控制器，包括字符缓冲区、字模产生器、 VGA 的 
RGB 、 HS 和 VS 信号。 
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7. 试设计一个彩色汉字显示控制器。 一 个汉字字模用16 X 16点阵表示，显示缓 
冲区存放汉字的国标码及颜色值。 

8. 重做 h —题，把彩色字模放入视频存储器。 

9. 如果你有一个 FPGA 板并且上面有 12 C EEPROM 或视频输人处理器之类的东 
西，使用本章的 i 2 c . v , 编写相应的驱动程序，实现与这些器件的通信。 

10. 直接存储器访问 ( DMA ) 控制器 ( DMAC ) 负责完成 I / O 设备与存储器之间的数据 
传输。 CPU 首先初始化 DMAC , 然后 DMAC 向 CPU 发出总线请求。得到响应 
后，由 DMAC 控制总线完成 I / O 设备与存储器之间的数据传输。试设计一个简 
单的 DMAC , 实现存储器数据块的搬家(还是往存储器里搬)。 

11. 本书给出了一个简单的 PCI 从设备接口电路的例子。试用 Verilog HDL 设计一 
个主设备的 PCI 接口电路，并实现所有必需的信号。 

12. 调査 USB 的接口标准。有可能的话用 Verilog HDL 设计一个 USB 键盘或鼠标 
的接口电路。 
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多核 CPU 的性能比单核 CPU 的性能有所提高，但如果一个计算机系统中只有 
一个 CPU 的话，其性能不能满足大规模并行计算的需求。高性能计算机一般是指包 
含多个 CPU 的计算机系统。多个 CPU 或多个计算机节点由互联网络 (Interconnection 
Networks) 连接在一起。本章讨论高性能计算机的结构及互联网络的设计。 

16 . 1 高性能计算机的种类 


高性能计算机分为两种：并行系统 (Parallel Systems) 和分布式系统 (Distributed 
Systems )。 并行系统的特点是所有的 CPU 共享所有的存储器，即不管存储器藏在什 
么地方，系统中的任何一个 CPU 都能访问到它。我们又称之为共享存储器的多处理 
机 （ Multiprocessors) 系统。分布式系统由多个计算机组成，每个计算机中的存储器只 
有该计算机中的 CPU 才能访问。计算机之间的通信由消息传递 (Message Passing) 完 
成。我们有又之为多计算机 （ Multicomputers) 系统。计算机网络系统可以归到此类。 

本节重点讨论并行系统。按存储器布局的不同，并行系统又可分为集中式共 
享存储器 (Centralized Shared Memory) 系统和分布式共享存储器 （Distributed Shared 
Memory) 系统。 

16.1.1 集中式共享存储器系统 ( SMP ) 

集中式共享存储器 (Centralized Shared Memory) 系统的结构见图 16.1 。 存储器模 
块可能有一个，也可能有多个，但每个 CPU 在访问存储器时都呈现相同的特点，具 
有相同的访问时间。我们称这类系统具有 UMA (Uniform Memory Access) 特性。我 
们又称集中式共享存储器的多处理机为对称型多处理机 (Symmetric Multiprocessors, 
SMP )。 图中的互联网络是总线。 



m 16.1 集中式共享存储器多处理机结构图 










16.1 高性能计算机的种类 


483 


使用总线的对称型多处理机系统可以连接的 CPU 个数比较少，往往用于构建伺 
服器 (Servers) 等小规模的并行系统，因为总线会成为系统性能的“瓶颈’’。 

16.1.2 分布式共享存储器系统 （ DSM ) 

分布式共享存储器 （Distributed Shared Memory ， DSM) 系统的结构见图 16.2 。 存 

储器是共享的，这没问题，但不是集中的，而是分散在每个 CPU 电路板上。这样， 
访问存储器时就有两种情况：本地存储器 (Local Memory) 访问和远程存储器 (Remote 
Memory) 访问。当 CPU 访问自己板上的存储器时，不需打扰互联网络，直接访问 
就行。而当 CPU 访问其他 CPU 板上的存储器时，需要经过互联网络。与本地存 
储器访问相比，远程存储器访问要花费更长的时间。我们称这类系统具有 NUMA 

(Non-Uniform Memory Access) 特性。 



图 16.2 分布式共享存储器多处理机结构图 

分布式共享存储器方式可以实现大规模甚至超大规模的并行系统。全球 500 强 

(http://www.top500.org) 的超级计算机 (Supercomputers) 大都采用这种方式。 

不管是集中式还是分布式，由于存储器为所有 CPU 共享并且每个 CPU 都有自 
己的 Cache, 在这种系统中存在一个著名的 Cache —致性问题(见第 14 章对多核 CPU 
的 Cache —致性问题的描述)。在采用总线的集中式共享存储器系统中，解决这个问 
题的方法是使用总线监视 协议； 而分布式共享存储器系统使用基于目录的 Cache — 
致性协议。后者的基本思想是为每个存储器块建立一个目录，标出在哪些 Cache 中 
保存有该块的备份。 
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16 . 2 互联网络的构成 


在并行系统中，互联网络的作用是连接所有的 CPU 和存储器，使它们能够 
通信。互联网络由两部分 组成： 一是带有多个通信端口的互联开关 （ Switch )， 每 
个 CPU/ 存储器板都需要一个这样的互联 开关； 二是链路 （ Link )， 通常是电缆线 
(Cables), 依照某种拓扑结构 （ Topology) 连接各互联开关的通信端口，见阁 16.3 。 互 
联开关与 CPU/ 存储器板之间的连接端口可以是专用端口，也可以是一般的通信端 
口。 我们把 CPU/ 存储器板和连接它的互联开关合在一起，称其为节点 （ Node )。 



阁 16.3 互联网络结构 


互联开关有多个双向的通信端口，它们可以是串行的，也可以是并行的。一个 
8 串行端口的互联开关的结构如图 16.4 所示。输入端有缓冲区，用来保存到来的数 
据。交叉开关 (Crossbar) 为每个输出端口选择数据来源。罔中的 Port 1 InputLink (Hi 
入）和 PortlOutputLink (输出）合在一起，构成 1 号双向通信端口。其余类似。 

一个 N X N 的交叉开关有 N 个输入、 N 个输岀。每个输出都可以从 N 个输人 
中任选一个送岀。一个 32 X 32 交叉开关的结构如图 16.5 所示， Inputs 是 32 个输 
入， Outputs 是 32 个输出。图中的例子使用 32 X 32 的开关矩阵 (Switch Matrix )。 它 
实际上是由 32 个 32 选 1 的多路器组成的。每个多路器都有一个 5 位的选择信号。该 
选择信号由配置 (Configuration) 寄存器送出。而配置寄存器数据来自于加载 (Load) 寄 
存器。加载寄存器也有 32 个，每个有 5 位。当 Load 信号为 1 时， 5 位地址 Address 
通过译码，选中其中的一个寄存器，把 5 位的 Data 数据在时钟上升沿处写人选中的 
寄存器中。输入信号 Config 用于把 32 个加载寄存器的内容在时钟上升沿处同时打入 
配置寄存器。图中的 CS 是片选信号， Reset 是复位信号。复位时，所有的输出端都 
选择0号输入端。 
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PortllnputLink 

Port2InputLink 

Port3InputLink 

Port4InputLink 

Port5InputLink 

Port6InputLink 

Port7InputLink 

Port8InputLink 


To CPU From CPU 



图 16.4 互联网络开关结构阁 


Port lOutputL ink 
Port20utputLink 
Port30utputLink 
Port40utputLink 
Port50utputLink 
Port60utputLink 
Port70utputLink 
Port80utputLink 


图 16.5 所示的是一种非常简单的交叉开关电路，多路器的选择信号要一个接一 
个地顺序写人到 Load 寄存器中，然后由 Ccrnfig 命令同时修改配置寄存器。这种电路 
可以实现存储转发 ( Store - and - Forward ) 式的通信。 


5 Bits 



图 16.5 交叉开关电路图 

图 16.6 所示的是一种可以根据输入信息中的目的地址 ( address ) 信息自动产生 
多路器选择信号的交叉开关电路。多路器的选择信号由输入信息中的地址域自动产 
生。这种电路可以实现 Cut - Through 式的通信。 
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Reset 


Inputs 


〈 data ， address) 

I ■ » 



> Outputs 


W 

(data, address) 


♦ 


图 16.6 自动路由交叉开关电路图 


16.3 互联网络的拓扑特性 

我们以环 ( Ring ) 为例，讨论互联网络固有的拓扑特性 (Topological Properties ) 0 
图 16.7( a ) 示出了一个有8个节点的环，图 16.7( b ) 的环有7个节点。 



(a) 8 个节点的环 



(b) 7 个节点的环 


图 16.7 环型互联网络 


16.3.1 节点度 (Degree) 

如果两个节点之间有一条链路，.我们称这两个节点互为邻居。我们定义一个节 
点的度 （ Degree ) 为该节点的邻居数，也就是一个节点的链路数。例如，图 16.7 中环 
的度为2,与节点数量无关。节点度影响互联开关的复杂程度及价格。 

16.3.2 直径 (Diameter) 


一个互联网络的直径 ( Diameter ) 定义为任意两个节点之间的最短路径中路径长 
度的最大值(链路数)。例如，图 16.7( b ) 中环的直径为3。 一 般地，如果一个环有 N 
个节点，它的直径为 LN /2 J o 互联网络的直径影响通信 时间： 直径越长，所需通信 
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时间也越长。我们总是希望有这样一种互联 网络： 它有比较小的节点度(设计简单价 
格低）并且直径也短（通信时间短速度快)。环的节点度小但直径长，全连接（任意两 
个节点之间都有一条链路)直径短但节点度大。 

16.3.3 平均距离 (Average Distance) 

两个节点之间的距离是它们之间的最短路径的长度，也就是链路的数量。例 
如，图 16.7( a ) 中节点 A 与节点 F 之间的距离是3。一个互联网络的平均距离定义如 
下： 所有的节点对 ( Pairs ) 中的两个节点之间的距离的总和除以对数(包括一个节点和 
它本身)。 

如 M 互联网络是对称的，则以上计算可以 简化： 假设共有 N 个节点，任取一个 
节点，计算该节点到所有节点距离的总和（一个节点到它本身的距离为0)，再除以 
N 。 例如，环是对称的互联网络，对图 16.7( a )， 取节点 A 来计算平均 距离： 节点 A 
到节点 A 、 B 、 C 、 D 、 E 、 F 、 G 和 H 的距离分别为0、1、2、3、4、3、2和1。平 
均距离为 （0+1+2 + 3 + 4 + 3 + 2+ 1)/8 = 2。 


16.3.4 对分宽度 （Bisection Bandwidth) 

试着搞一下 破坏： 用钳子（剪刀可能也行）剪断最少数量的链路（电缆线)，使所 
有节点分成数量相等（或差1个）的两 部分： 两部分之间的链路全被剪断了。这个被 
剪断的链路的数量就是对分宽度 （Bisection Bandwidth )。 注意： 你可别真剪，在纸上 
比划比划就行了。图 16.7 中环的对分宽度为 2, 与节点数量无关。 

16.4 常用的互联网络 

以下介绍几种简单且常用的互联网络的拓扑结构并给出它们的拓扑特性。它们 

是 Mesh 、 Torus、Hypercube 和 Tree 1 。 

16.4.1 Mesh 

图 16.8(a) 和图 16.8(b) 示出了二维 （ 2D) Mesh 和三维 （ 3D) Mesh 两个例子。 Mesh 
不是对称的互联网络，处在边角的节点的度与处在中心位置的节点的度是不同的。 

16.4.2 Torus 

给 Mesh 中的边角节点加人额外的链路，使所有节点具有相同的度，就变成了 
Torus 。 图 16.9(a) 和图 16.9(b) 示出 了二维 (2D) Torus 和三维 (3D) Torus 两个例子。 

很多高性能计算机都采用 3D Torus 互联网络。它具有固定的节点度 6, 而且是对 
称的。但当系统有相当多的节点时， 3D Torus 的直径比较长。例如，如果节点数为 
128 X 128 X 64 = 1048 576, 它的直径为 64 + 64 + 32 = 160 。 

tree 是树， Hypercube 是超立方体， Mesh 和 Torus 不好翻译成中文，网格和环格？好像不怎么好。 
如同 Cache — 样，干脆全部直接用英文名称好了。 
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(a) 2D Mesh (b) 3D Mesh 

图 16.8 Mesh 的拓扑结构 



(a) 2D Torus (b) 3D Torus 


图 16.9 Toms 的拓扑结构 . 

16.43 Hypercube 

Hypercube (超立方体）是一种非常有意思的且常用的互联网络，它具有递归的特 
性。图 16.10 示出的是 n 维 Hypercube (n = 0, 1， 2,3, 4, 5 )。 一 般地 ， n 维 Hypercube 

也称为 n-cube 。 一个 n-cube 有 2 n 个节点，节点度为 n ， 直径也为 n 。 例如，如果节 
点数为 2 2G = 1048 576, 20-cube 的直径为 20 ,比 3D Torus 小很多，但节点度比 3D 
Torus 大不少。 

16.4.4 Tree 和 Fat-Tree 

Tree (树）也是一种常用的互联网络。图 16.11(a) 示出的是一个具有 15 个节点的 
Binary Tree (二叉树)。我们称节点 r 为根节点（树根在上面，长倒了)。它有两个子 
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O 

(a) 0-Cube Q - O 

Q — O O — O 

(b) 1 -cube (c) 2-cube 


㈣ 


(d) 3-cube 



(e) 4-cube 



(f) 5-cube 


图 16.10 Hypercube 的拓扑结构 

树： 根节点为 s 的左子树和根节点为 t 的右子树(称为左父右母似乎更合适)。 




(a) Tree 


(b) Fat-Tree 


图 16.11 Tree 和 Fat-Tree 的拓扑结构 

由于左子树的节点与右子树的节点通信时都要经过根节点 r ， 链路和 ( t , r ) 
将成为通信的瓶颈。为了解决这个问题，我们在瓶颈处加人额外的链路，就构成所 
谓的 Fat-Tree (树枝比较细、树干比较粗的树)，如图 16.11( b ) 所示。 


16.5 基本的通信操作 


信, 


本节以 Hypercube 为例，讨论基本的通信操作。我们采用存储转发方式实现通 


即一个节点接收完一个完整的信息包后，再向下一个节点发送。向一个相邻节 


点发送一个信息包的时间为 t s + mt w ， 其中 ts 为信息包的准备时间， m 为信息包的字 


数， t w 为发送一个字所需的时间。 

Hypercube 中每个节点的地址的指定方法如图 16.12 所示。我们使用一个 n 位的 
二进制数来表示一个节点的地址。当两个节点的地址只有一位不同时，这两个节点 


之间有一条链路。 

假设源节点 S 想要给目的节点 d 发送信息，我们可以从节点地址的最高位开始 
向最低位逐位检查，如果两个地址位不同，则发送。图 16.13 示出的是源节点010发 
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(a) 1 -cube (b) 2 -cube (c) 3-cube 


图 16.12 Hypercube 节点地址 

送信息给目的节点 101 的 过程： 010发送到110,然后发送给100,最后发送至目的 
节点101。路径为 010—110—100— 101。当然，我们也可以从最低位开始检查， 
如此得到不同的发送路 径： 010 — 011—001 — 101。 



图 1 6. 13 Hypercube —对一通信 

基本的通信操作包括以下四种：⑴一对多广播 ( One - to-All Broadcast ); (2) 多 
对多广播 ( All - to-All Broadcast )； (3) 一对多私通 ( One - to-All Personalized Communica ¬ 
tion )； (4) 多对多私通 ( All - to-All Personalized Communication ) 0 最后一种也称做全交 
换 (Total Exchange ) o 以下我们以 Hypercube 为例，描述这四种操作和它们所花的时 
间。设 p 为 n - cube 的节点数，则 p = 2 n 。 我们也假设一个节点在同一时刻只能有一 
个发送和一个接收。 

16.5.1 —对多广播 

一对多广播是指一个节点（源节点）发送相同的信息给其他所有的节点。我们 
仍以从高到低的次序逐位发送。首先，沿第 n — 1位的方向，节点 s 发送信息给节 
点 s( n -D ( s 和 s ( n -*) 的地址只是在第 n — 1位处不同)。这时有两个节点保有信息。 
然后，沿第11一2位的方向，节点 s 和 S ( n _ D 同时分别发送信息给节点 s ( n _ 2 ) 和 
s (n-l)(n-2) o 这时有四个节点保有信息。其次，这四个节点再沿第 n — 3 位的方向发 

送信息。这时就有八个节点保有信息。如此这般，直到沿第0位发送完为止。 
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图 16.14 是在3 -cube 中实现一对多广播的情况 （ s 为节点 000 )。 不难看出，一对 
多广播发送所花的时间为 to ab = ( log 2 p)(ts + mt w ) 0 



罔 16.14 Hypercube 一 对多广播 


16.5.2 多对多广播 

多对多广播是指所有节点都向其他节点广播信息。其实现方法参考图16.15。图 
中的（0，1)表示节点0和节点1的信息，其余类推。我们沿第0、1、2位的次序交换 
信息。每次交换都要重新打包，其长度变成原来的两倍。因此多对多广播发送所花 

n— I 

的时间为 kb = E (ts + 2 * 111 ^) = (log 2 p)ts + (p — l)mt w 。 



[ 冬 1 16.15 Hypercube 多对多广播 


16.5.3 一对多私通 

此私通的意思是私人通信 （Personalized Communication )。 一对多私通是 一 个节点 
发送信息给所有其他节点，与广播不同，每个信息都是不一样的。不失一般性，我 
们假定节点0是源节点，它有 2 n 个信息⑴， i = 0, 1 ， 2, • • • ， 2" — 1 (假设也有一个送 
给它自己的信息)。首先把信息 1) 打包，沿最高位第 n _ l 位送给节 
点 Y - 1 。 然后节点0和节点2 1 - 1 再把各自的后一半信息打包，沿第11一2位送出。 
以此类推，每次信息包的长度变为原来的一半，直到沿第0位送出为止。 

图 16.16 是在 3-cube 中实现一对多私通的情况。所花的时间为 Up = _ (ts-h 
2 n ~ ,_1 mt w ) = (log 2 p)t s + (p — l)mt w , 与多对多广播所花的时间相同。 
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(4,5,6,7) 


藤 



图 16.16 Hypercube —对多私通 


16.5.4 多对多私通 

多对多私通是每个节点都发送信息给所有其他节点，并且所有信息都不同。我 
们假定节点 i 有 2 n 个信息 （ i ， j) ， i，j = 0 ， l ， 2 ， "* ， 2 n — 1， i 是信息的源节点号、 j 是 
信息的目的节点号（假设也有一个送给它自己的信息)。参阅图 16.17, 把应该发送的 
信息打包，按第 n — 1位到第0位的次序送出。每次发送的信息包有 p /2 个信息，因 

此多对多私通所花的时间为 taa p = (l 0 g 2 p)(t s + pmt w /2)o 


(0,4)(0,5)(0,6)(0,7X4,4)(4,5)(4,6)(4,7) 


(0,0X0,1 X0,2X0,3)(4,0X4,1 )(4,2K4,3) 


(2,4X2,5X2,6)(2,7X6,4X6,5)(6,6K6,7) 


(2,0)(2, 1 )(2,2X2,3)(6,0X6,1 )(6,2)(6,3) 


& - © ( 3,0 


(1,4)(1,5)(1,6)(1 ， 7X5,4X5,5X5,6X5,7) 


(1,0)( 1 ， 1)(1 ， 2)( 1,3)(5,0)(5,1 >(5,2)(5,3) 


(3,4)(3,5>(3,6)(3,7X7,4)(7,5)(7,6)(7,7) 


(3,0)(3,1 )(3,2)(3,3X7,0)(7,1 )(7,2)(7,3) 


(0,4)(0,5)(2,4)(2,5X4,4)(4,5)(6,4)(6,5) 


(0,0)(0,1 )(2,0)(2,1 )(4,0X4,1 )(6,0X6,1) 


(0,6)(0,7)(2,6)(2,7>(4,6)(4,7)(6,6>(6,7) 


(0,2)(0,3X2,2X2,3)(4,2)(4,3)(6,2>(6,3) 



(1,4)(! ， 5)(3,4X3,5X5,4)(5,5)(7,4X7,5) 


(1 ， 0)( 1 ， 1 )(3,0)(3, 1 )(5,0)(5,1 )(7,0)(7,1) 


(1,6)( 1 ， 7)(3,6X3,7X5,6)(5,7)(7,6)(7,7) 


(1 ， 2X 1 ， 3)(3,2)(3,3X5,2)(5,3X7,2)(7,3) 


(0,4X1 ， 4)(2,4X3,4X4,4X5,4K6,4)(7,4) 


(0,0)(1 ， 0)(2,0)(3,0)(4,0X5,0)(6,0)(7,0) 


(0,6)( 1 ,6K2,6)(3,6)(4,6)(5,6)(6,6>(7,6) 


(0,2)( 1 ， 2)(2,2X3,2)(4,2K5,2)(6,2X7,2> 



(0,5)(1 ， 5)(2,5)(3,5)(4,5)(5,5)(6,5)(7,5) 


(0 ， 1X1 ， 1)(2 ， 1)(3,1X4 ， 1X5,1)(6 ， 1>(7,1) 


(0,7)( 1 ， 7)(2,7>(3,7X4,7)(5,7)(6,7X7,7) 


(0,3X1 ， 3)(2,3)(3,3)(4,3)(5,3)(6,3)(7,3) 


阁 16.17 Hypercube 多对多私通 


16.6 新型互联网络 

我们已经在第二节讲到互联网络由互联开关和连接互联开关的端口的电缆线组 
成。互联开关的端口越多，其价格也越贵。由于一个节点就需要一个互联开关，当 
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系统中有成千上万甚至百万个节点时，互联开关的价格往往占了整个系统价格的很 
大部分。另外，由于要提供髙速通信能力，电缆线的价格也不便宜。因此，我们希 
望在构建大规模的高性能计算机时，对互联幵关端口的数量要有所限制。也就是说 
我们希望使用节点度低的互联网络。 

那岂不是说用环型互联 N 络就好了？问题是环型互联网络的直径太大，比如系 
统有一百万个节点，那么它的直径就是五十万。为了缩短通信时间，我们又希望互 
联网络有较小的直径。我们知道，全连接的互联网络（每两个节点之间都有一条链路) 
的直径最小，但一百万个节点的系统要求互联开关有九十九万九千九百九十九个端 
口。至少到目前为止，还没有一家公司生产这种产品。 

既要互联开关的端口数 M 比较少，又要互联网络的直径比较小，这是矛盾的 
呀，是不是要求太高了？是。但我们要朝这个方向努力。本节将要描述的三种新型 
互联网络 （Dual-Cube、Metacube 和 RDN) 就是这种努力的部分结果。 

16.6.1 Dual-Cube 

在讨论 Dual-Cube 之前，让我们先熟悉一个比较冇名的多处理机 系统： SGI 公司 
的 0rigin2000。 图 16.18 是 0rigin2000 3D 和 4D Hypercube 的系统结构。 0rigin2000 

使用 Hypercube 作为它的互联网络。图中的圆圈表示互联开关，正方形表示 CPU/ 存 
储器电路板。每个开关有六个端口，其中两个用来连接 CPU/ 存储器板，剩下的四个 
用来构建 Hypercube， 图 16.18(b) 使用了互联开关的所有六个端口。 



(a) 3D (b) 4D 


阉 16.18 0 rigin 2000 3 D 和 4 D 互联网络系统结构 

如果还想构建一个比图 16.18(b) 规模更大的系统怎么办呢？简单地按 Hypercube 
规则增加到 5D 是不可能了， W 为已经没有端口可用了。 SGI 的做法是使用一个叫做 
Cray Router 的互联开关按星型 (Star) 结构连接相应位置的节点，见图16.19。 

当系统规模变大时，互联网络的拓扑结构突然变了。我们不能说这是一种好的 
做法，因为以前在 Hypercube h 开发的算法和软件都要修改以适应新的拓扑结构。 

Dual-Cube( |5 l 能用较少的链路连接较多的节点，同时尽最保持了 Hypercube 固有 
的特性。图 16.20 示出 Dual-Cube 的地址格式。一个 Dual-Cube DC(m ) 使用 2 m + 1 
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图 16.19 使用 Cray Router 的 0rigin2000 5D 互联网络系统结构 


位二进制地址，其中的1位表示 Class ID ,两组 m 位二进制数分别表示 Cluster ID 和 
Node ID 。 注意，在不同的 Class 中 ， Cluster ID 和 Node ID 所处的位置是不同的。 


1-bit Class ID m bits m bits 



Class 


Class 


0 

Cluster ID 

Node ID 


1 

Node ID 

Cluster ID 


图 16.20 Dual-Cube 地址格式 

DC ( m ) 的节点度为 m + 1。如果两个节点的 2 m + 1 位地址只是 Class ID 不同， 
则两个节点之间有一条链路。另外，如果两个节点的地址只是在 Node ID 域中有一 
位不同而其他位均相同，两个节点之间也有一条链路。 

Dual - Cube 的 Cluster 是一个 m - cube ,不同 Cluster 中的两个节点的通信必须要 
通过 Class ID 域的链路进行。我们称这个链路为 Cross-Edge ( m - cube 中的链路为 
Cube - Edge )。 

图 16.21 示出的是 m = 2的 Dual - Cube 的结构。每个节点有3条链路，总节点 
数是32。而传统的 Hypercube 只能连接8个节点，如果节点度是3的话。图 16.22 示 
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出的是 DC (3) 的结构。每个节点有4条链路，总节点数是128。图中只画出了 Class 1 
的 Cluster ID 为0的8个节点连接到其他节点的链路。 



H — Class 0 —- Class 1 -— Class 0 — ► 


阁 16.21 Dual-Cube DC (2) 结构图 



卜 - Class 0 + ■ Class 1 - - + Class 0 — 


图 16.22 Dual-Cube DC (3) 结构图 

在 Dual-Cube 中，建立两个节点之间的通信路径分为以下三种情况，见表 16.1 
给出的三个例子。第一种情况是两个节■点处在同一个 Cluster ( m - cube ) 中。这种情况 
最简单，与 Hypercube 的通信没有任何区别。第二种情况是两个节点的 Class ID 不 
同。由于 Class ID 不同，这两个节点肯定处在不同的 Cluster 中。这种情况也 简单： 
两个节点各自在自己的 m-cube 中建立路径，使其能通过 Cross-Edge 连起来。第三种 
情况是两个节点的 Class ID 相同，但处在不同的 Clustei ■中。在这种情况下，可先按 


496 


®16 章高性能计算机及互联网络设计 


表 16.1 Dual-Cube 三种情况下的通信 


(1) 相冋的 Cluster (2) 不同的 Class (3) 相同的 Class 小同的 Cluster 


s = 0 0000 0000 

0 0000 0001 
0 0000 0011 
0 0000 0111 
t = 0 0000 1111 


s = 0 0000 0000 

0 0000 0001 
0 0000 0011 
0 0000 0111 
ooooo mi 
1 0000 1111 
i oooi mi 
1 0011 1111 
i out mi 

t = 111111111 


s = 0 0000 0000 

0 0000 0001 
0 0000 0011 
0 0000 0111 
ooooo mi 
i oooo mi 
i oooi mi 
l ooii mi 
l om mi 
l mi ini 

t = oim mi 


第二种情况处理，再走一次 Cross-Edge 就行了。第三种情况告诉我们 Dual-Cube 的 
直径是 2 m + 2，比 Hypercube 只多 1 (n = 2 m + 1)。 

—般地，如果节点度为 m + l ， 传统的 Hypercube 能连接 2 m +1 个节点，而 Dual - 
Cube 能连接 2 2 m +1 个节点，是 Hypercube 的 2 m 倍，代价是直径增1 (在二者具有相 
同节点数的情况下)。 

回到 Origin 2000 的例子。每个互联开关有6个端口，两个用来连接 CPU / 存储 
器板，剩下的4个用于构建互联网络。如果使用 Dual - Cube ， 则 m = 3，可连接 
2 7 = 128个节点，而且不用 Cray Router ， 见图16.23。图中只両出了部分链路，它们 
实际上是电缆线，按 Dual - Cube 拓扑结构连上就行，而不需要改变 CPU / 存储器板上 
的任何硬件电路。 



阁 16.23 使用 Dual-Cube 构造 Origin2000 
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16.6.2 Metacube 

Dual-Cube 的 Class ID 只有一位。 Metacube [ 14 , n ， 20 】 MC ( k ， m ) 是对 Dual-Cube 的 
扩充，其地址格式如图 16.24 所示。我们把节点地址的 Class ID 扩充至 k 位，其余 
共有2» { 域 ： mi ， 0 ^ i ^ 2 k - 1,每个域有 m 位。因此 MC ( k , m ) 的节点地址共有 
k + 2 k m 位，可连接 2 k + 2 km t 节点。 


k bits m bits m bits m bits m bits 



图 16.24 Metacube 地址格式 

Metacube 的链路的连接方法如下。在 Class ID 域有 k 条链路。设 Class ID 的 
值为 c ， 则在 m c 域还有 m 条链路。其他域没有链路。因此 MC ( k ， m ) 的节点度为 
k + m 。 例如， MC (2,3) 中节点(01，111，101,丨10,000)在1^此6中的邻接节点为(0^ 

111，101，110, 000) 和 (11, 111, 101, 110, 000); 在 m-cube 中的邻接节点为 (01, 111, 

101, 111, 000), (01, 111, 101,戦 000) 和（01，111，101,010, 000 )o 



图 1 6.25 Mctacube MC(2,2 ) 结构示意图 

图 16.25 示岀的是 MC (2,2)。 由于 MC (2,2) 有 2 2+22x2 = 1024个节点，不可能 
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在图中全部画出，我们 只両了 一部分节点和链路。 

一个 MC ( l ， m ) 就是 一 个 Dual-Cube DC ( m )。 我们称 MC (2， m )、 MC (3， m ) 和 
MC (4, m ) 分别为 Quad - Cube 、 Oct-Cube 和 Hex - Cube 。 而 MC (0, m ) 是一个 m - cube 0 
表 16.2 列岀了不同节点度下的 Metacube 节点数，并与 Hypercude 做了比较。从 
表中我们可知，一个节点度为6的 MC (3,3) 有2 27 = 134217728个节点，规模应该 
是足够大了。而节点度为6的 Hypercube 只能连接64个节点。 


16.2 Metacube 节点数 



我们不难证明 MC ( k ， m ) 的直径为 2 k + 2 k m , 其中 2 k m 是除 Class ID 以外的域的 
地址位数， 2 k 是在 k - cube 中的所谓 Weak - Hamiltonian 【 14】 的距离。 Metacube 的直径比 
相同规模的 Hypercube 多了 2 k — k 。 由于 k = 2或3就足以构建大规模的系统，因此 
直径多出的部分不会很大。 

同样是 Metacube ， 我们还可以用另外一种形式来构建，见图 16.26 所示的节点 
地址格式。我们把 k 位 Class ID 放在最右边，其余分成 m 个域，每个域有 2 k 位。 


21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 



m = 5 

图 16.26 Metacube 另外一种格式的地址 

除了 Class ID 域有 k 条链路外，其余 m 条链路分布在 m 个域中，每个域有一条 
链路，它的位置依 Class ID 的值而定。假设 Class ID 的值为 c , 那么 m 条链路所处的 
位置分别是 c + k ，2 k + c + k ，2 k x 2+ c + k ，2 k x 3+ c + k ， …， 2 k x ( m — l )+ c + k 。 我 
们称这种格式的 Metacube 为基于 k - cube 的 Metacube ， 而称原始的那个为基于 m-cube 

的 Metacube o 
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图 16.27 示出的是一个基于 k - cube 的 MC (2，1)， 即 k = 2 、 m = 1，基本的 
Cluster 是一个 k - cube 。 从图中看出，这种格式的 Metacube 的链路有比较规整的连接 
方式，而且在 Cluster 中的节点的地址是连续的。 



阁 16.27 Metacube MC(2 ， 1> 结构图 


16.6.3 RDN 

RDN (Recursive Dual - Net )【 19 , 21】 是一种具有递归结构的互联网络。一个 k 级的 
RDN 由 k 一 1级的 RDN 构建而成。假设 k 一 1级的 RDN 有 n 个节点，编号为 
0,1 ，…， n — 1，我们称其为 Cluster 。 一 个 k 级的 RDN 有 2 n 个 Clusters ,每个 Cluster 
有 n 个节点。我们把这 2 n 个 Clusters 分成两组，每组有 n 个 Clusters ,其中的一组定 
义为类型0,另外一组定义为类型1。 

如此，一个 k 级的 RDN 的节点地址由3部分 组成： （ c ， b ， a ), 其中 c 等于0或 
1，用来表示类型； b 的取值范围是0 < b < n — 1，表示 Cluster 号； a 的取值范围也 
是0 < a < n — 1，表示一个 Cluster 内部的节点号。这样，一个 k 级的 RDN 就有 2 n 2 
个节点。节点之间的第 k 级链路的连接规 则是： 节点 （0， b ， a ) 连接到节点 （ l ， a ， b ), 
如图 16.28 所示。 





500 


第 16 章高性能计算机及互联网络设计 


RDN(m，k 一 1) 


RDN(m ， k) 



图 16.28 由 k 一 1 级的 RDN 构建 k 级的 RDN 


三个数字格式的地址可以转换成一个单一数字的地址，然后用同样的方法可以 
构建一个 k + 1级的 RDNU 那么问题 来了： 一个0级的 RDN 是什么呢？答案是任何 
一 种基本的互联网络都可以，我们称其为基础网络 （Base Network )。 假设一个基础网 
络有 m 个节点，节点度为 d ， 贝 lj 由此而建成的一个 k 级的 RDN ( m ， k ) 就有 （2 m ) 2k /2 
个节点，节点度为 d + k 。 如果基础网络是对称的，则 RDN 也是对称的。图 16.29 和 
图 16.30 分别示出了 RDN ( 4 ，1) 和 RDN (4,2)， 其中基础网络是 2- cube 。 

( 0 , 00 ,*) ( 0 , 01 /) ( 0 , 11 /) ( 0 , 10 /) 



(1,00,*) (1,01,*) (1,11，*) (1，10，*) 

图 16.29 RDN(4, 1) 结构罔 

假设基础网络的直径为 t ， 则 RDN ( m ， k ) 的直径为 2 k t + 2 K + 1 — 2。如果我们 
用5 X 5的 2 D Torus 作为基础网络，它的节点度是4，直径是4。则 RDN (25, 1) 有 
2 X 25 X 25 = 1250个节点，节点度是4 + 1 = 5，直径是4 + 4 + 2 = 10;而 
RDN (25,2) 有2 X 1250 X 1 250 = 3 125 000个节点，节点度是5+1 =6,直径是 

10+ 10 + 2 = 22 o 
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图 16.30 RDN(4,2 ) 结构图 

我们定义一个参数，称做价格比率 CR (Cost Ratio )， 来评价一个对称互联网络的 
综合价格（硬件价格和软件价格）因素。 CR 的定义是 


CR ( G ) = 


d ( G ) + D ( G ) 

log 2 |( G )| 


其中， G 代表一个对称互联网络， |( G )| 是节点数， d ( G ) 是节点度， D ( G ) 是直径。 
节点度影响互联开关及电缆线的价格（硬件)，直径影响节点之间的通信时间（软件)。 


表 16.3 小规模和大规模对称互联网络的价格比率 CR 


互联网络 

节点数 

节点度 

直径 

价格比率 

3D-Torus(10) 

1000 

6 

15 

2.11 

1 0-cube 

1024 

10 

10 

2.00 

RDN(5 2 , 1) 

1250 

5 

10 

1.46 

RDN(3 3 , 1) 

1458 

7 

8 

1.43 

3D-Torus(128) 

2097 152 

6 

192 

9.43 

21 -cube 

2 097 152 

21 

21 

2.00 

DC(10) 

2 097152 

11 

22 

1.57 

RDN(5 2 ,2) 

3 125 000 

6 

22 

1.30 

RDN(3 3 ,2) 

4 251 528 

8 

18 

1.18 

RDN(5,3) 

50 000 000 

5 

30 

1.37 


表 16.3 列出了小规模和大规模互联网络的价格比率 CR , 其中 3 D - Toms (10) 和 
3 D - Torus (128) 的结构分別是10 X 10 X 10和128 X 128 X 128; RDN 中的基础网络 
5 2 、3 3 和5分别是 5 x 5 Torus 、3 x 3 x 3 Toms 和5个节点的环，它们右边的数字是 
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k 0 从表中我们看出 RDN (3 3 ,2) 的价格比率 最低： 每个节点有8条链路，能连接多至 
4251 528个节点，最长的节点距离仅为18。 

本节描述了三种新型互联网络，它们具有用较少的端口连接更多的 CPU 和存储 
器板并且保证它们之间的通信距离比较短的优点，非常适合用来构建下一代超大规 
模的超高性能计算机。 

与互联网络有关的其他研究课题 包括： （1) 假设 d 为节点度，找出任意两个节点 
之间的 d 条不相交路径 (Disjoint Paths )； (2) 容错计算 ( Fault-Tolerant Computing ), 即 

允许系统中的若干链路或节点岀现故障； （3) 构建汉密尔顿环 （Hamiltonian Cycle ), 即 
找出一个环，它连接所有的节点，并且每个节点只在环中出现 一次； （4) 算法设计， 
比如并行前缀计算 （Prefix Computation ) 和并行双调排序 (Bitonic Sorting ) 等。 

16.7 习题 

1. 证明 n - cube 的平均距离是 n /2 0 

2. 把 n - cube 中的一个节点用一个有 n 个节点的环来代替，就构成所谓的 CCC 
(Cube Connected Cycles )。 它的节点度是3。计算 CCC 的直径和平均距离。 

3. 如果在一个互联网络中能找出一个环，它连接了所有的节点，并且每个节点 
只被连接 一 次，我们说这个互联网络是 Hamiltonian 的。试证明 Dual - Cube 是 
Hamiltonian 的。 

4. 证明 RDN ( m , k ) 的节点数是 （2 m ) 2 k /2、 直径是 2 k t + 2 k+, — 2,其中 m 和 t 分 
别是基础网络的节点数和直径。 

5. 试在 Metacube 和 RDN 上实现四种基本的通信操作并分析所需时间。 
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